@joepie91 Hi Sven,
De tekstdata (ook wel ‘content’) die gebruikt zal worden om GPT-NL te trainen, bestaat uit drie categorieën: private data (auteursrechtelijk beschermde content), publieke data (content met een open-data licentie) en synthetische data (o.b.v. content waarvoor we ofwel de auteursrechtlicentie of wel open-data licentie is verkregen).
Meer info vind je in dit artikel: https://gpt-nl.nl/nieuws/open-gpt-nl/
@SURF Bedankt. Na dat artikel gelezen te hebben resteren er mij twee vragen:
1. Hebben jullie al onderzocht of een nuttig model uberhaupt haalbaar is met een dergelijke beperkte dataset? Onderzoek hiernaar in het verleden liep namelijk uit op teleurstellende resultaten.
2. Wat is jullie plan om te voorkomen dat het model de al-bestaande vooroordelen in de maatschappij 'vastlegt' (deze zullen immers ook in de trainingsdata verwerkt zitten), versterkt, en als het ware een ideologische 'eenheidsworst' creeert omdat iedereen hetzelfde model gebruikt met dezelfde ideologische waarden erin gebouwd? Aangezien dat flinke schade kan veroorzaken aan de maatschappelijke ontwikkeling, nog meer dan veel ICT-systemen nu al doen.
@SURF (De reden voor de vraag is dat pogingen in het verleden om originele en/of publiek-domein datasets te gebruiken, op niets zijn uitgelopen, omdat er simpelweg onvoldoende beschikbare data is om nuttige uitkomsten te verkrijgen met LLM-architecturen.)