Con un colpo di scena in stile open-source, la Wikimedia Foundation ha deciso di affrontare di petto uno dei problemi più spinosi dell’era AI: il sovrasfruttamento dei contenuti da parte degli scraper automatizzati. Lo fa non chiudendo, ma aprendo meglio: nasce così un dataset pensato appositamente per l’addestramento dei modelli di intelligenza artificiale.
Il nuovo set di dati – annunciato lo scorso 15 aprile e realizzato in collaborazione con Kaggle, la piattaforma di data science di proprietà di Google – è disponibile in versione beta e include contenuti strutturati di Wikipedia in lingua inglese e francese. Non si tratta del solito dump testuale, ma di una raccolta ottimizzata per il machine learning: riassunti, brevi descrizioni, infobox, sezioni articolate, link a immagini e rappresentazioni JSON ben formattate. Niente riferimenti, niente file audio, ma tanta sostanza per chi vuole lavorare seriamente con l’AI.
La mossa è tutt’altro che banale.
Negli ultimi mesi, Wikipedia è stata letteralmente presa d’assalto da scraper e crawler automatici che fanno incetta di contenuti per alimentare modelli generativi, mettendo a dura prova i server e consumando larghezza di banda senza alcun controllo. Invece di inseguire e bloccare ogni bot, Wikimedia ha scelto la via del design intelligente: fornire un’alternativa ufficiale, legale e soprattutto efficiente.
“Kaggle è entusiasta di contribuire a mantenere questi dati accessibili, disponibili e utili”, ha dichiarato Brenda Flynn, responsabile delle partnership della piattaforma.
L’obiettivo? Dare strumenti di qualità non solo ai colossi come Google – già partner consolidato di Wikimedia insieme a Internet Archive – ma anche a piccole aziende, startup, ricercatori e data scientist indipendenti, spesso esclusi dalla grande corsa all’AI per mancanza di risorse o accesso a dataset ben strutturati.
La guerra allo scraping selvaggio, insomma, potrebbe trovare pace non nella censura, ma nella collaborazione.