Wat doet Nederland 🇳🇱 op het gebied van AI? In Nederland bouwen we ons eigen taalmodel GPT-NL, die we trainen op onze nationale supercomputer Snellius.

Een Nederlands taalmodel op basis van publieke waarden is belangrijk voor onderwijs en onderzoek. Het nieuwe AI-taalmodel maakt Nederland ook minder afhankelijk van commerciële partijen.

Machine Learning Consultant Simone van Bruggen vertelt meer over Snellius in de video van NOS op 3.

#ai

Follow

@SURF En op welke data is dat model dan precies getraind?

· · Web · 2 · 0 · 0

@SURF (De reden voor de vraag is dat pogingen in het verleden om originele en/of publiek-domein datasets te gebruiken, op niets zijn uitgelopen, omdat er simpelweg onvoldoende beschikbare data is om nuttige uitkomsten te verkrijgen met LLM-architecturen.)

@joepie91 Hi Sven,

De tekstdata (ook wel ‘content’) die gebruikt zal worden om GPT-NL te trainen, bestaat uit drie categorieën: private data (auteursrechtelijk beschermde content), publieke data (content met een open-data licentie) en synthetische data (o.b.v. content waarvoor we ofwel de auteursrechtlicentie of wel open-data licentie is verkregen).

Meer info vind je in dit artikel: gpt-nl.nl/nieuws/open-gpt-nl/

@SURF Bedankt. Na dat artikel gelezen te hebben resteren er mij twee vragen:

1. Hebben jullie al onderzocht of een nuttig model uberhaupt haalbaar is met een dergelijke beperkte dataset? Onderzoek hiernaar in het verleden liep namelijk uit op teleurstellende resultaten.

2. Wat is jullie plan om te voorkomen dat het model de al-bestaande vooroordelen in de maatschappij 'vastlegt' (deze zullen immers ook in de trainingsdata verwerkt zitten), versterkt, en als het ware een ideologische 'eenheidsworst' creeert omdat iedereen hetzelfde model gebruikt met dezelfde ideologische waarden erin gebouwd? Aangezien dat flinke schade kan veroorzaken aan de maatschappelijke ontwikkeling, nog meer dan veel ICT-systemen nu al doen.

Sign in to participate in the conversation
Pixietown

Small server part of the pixie.town infrastructure. Registration is closed.