Con un colpo di scena in stile open-source, la Wikimedia Foundation ha deciso di affrontare di petto uno dei problemi più spinosi dell’era AI: il sovrasfruttamento dei contenuti da parte degli scraper automatizzati. Lo fa non chiudendo, ma aprendo meglio: nasce così un dataset pensato appositamente per l’addestramento dei modelli di intelligenza artificiale.
Tag: Wikipedia

Quando una piattaforma fondata sull’utopia della conoscenza libera decide di “semplificare” la vita agli sviluppatori di intelligenza artificiale con un dataset ufficiale, bisogna sempre chiedersi: a chi conviene davvero? La Wikimedia Foundation ha annunciato la pubblicazione su Kaggle la piattaforma di Google per il machine learning di un dataset in beta contenente dati strutturati tratti da Wikipedia, in inglese e francese, pensato per addestrare modelli di AI.
Sembra un dono alla comunità, ma è un cavallo di Troia. Dietro la maschera dell’altruismo open source si nasconde una strategia di contenimento: evitare che gli scraper e i crawler automatici di OpenAI, Anthropic, Meta & soci continuino a divorare banda e cicli server a colpi di scraping massivo e disordinato. L’iniziativa, nelle intenzioni di Wikimedia, dovrebbe fornire un’alternativa ufficiale, elegante, e soprattutto controllabile. Niente più parsing di HTML grezzo, niente più richieste al limite del DoS mascherate da “ricerca”. Solo JSON ben confezionato, con abstract, infobox, sezioni e link a immagini. Mancano però riferimenti, contenuti audio e tutto ciò che esce dal testo scritto. In pratica: il cuore, ma senza il sangue.