Quando una piattaforma fondata sull’utopia della conoscenza libera decide di “semplificare” la vita agli sviluppatori di intelligenza artificiale con un dataset ufficiale, bisogna sempre chiedersi: a chi conviene davvero? La Wikimedia Foundation ha annunciato la pubblicazione su Kaggle la piattaforma di Google per il machine learning di un dataset in beta contenente dati strutturati tratti da Wikipedia, in inglese e francese, pensato per addestrare modelli di AI.
Sembra un dono alla comunità, ma è un cavallo di Troia. Dietro la maschera dell’altruismo open source si nasconde una strategia di contenimento: evitare che gli scraper e i crawler automatici di OpenAI, Anthropic, Meta & soci continuino a divorare banda e cicli server a colpi di scraping massivo e disordinato. L’iniziativa, nelle intenzioni di Wikimedia, dovrebbe fornire un’alternativa ufficiale, elegante, e soprattutto controllabile. Niente più parsing di HTML grezzo, niente più richieste al limite del DoS mascherate da “ricerca”. Solo JSON ben confezionato, con abstract, infobox, sezioni e link a immagini. Mancano però riferimenti, contenuti audio e tutto ciò che esce dal testo scritto. In pratica: il cuore, ma senza il sangue.
C’è dell’ironia nell’affidare tutto questo proprio a Kaggle, figlio adottivo di Google, uno dei colossi che già beneficia di un accordo diretto con Wikimedia per l’accesso ai dati. Non stupisce quindi la dichiarazione entusiasta del loro head of partnerships: “Kaggle è entusiasta di essere il custode di questi dati”. Più che entusiasmo, suona come una blindatura preventiva contro futuri problemi legali o attacchi reputazionali. Tutto lecito, tutto tracciato, tutto sotto controllo.
E chi ci guadagna? Sicuramente i piccoli sviluppatori, ricercatori indipendenti e startup che finora non avevano i mezzi per creare scraper sofisticati né stipulare accordi con Wikimedia. Finalmente potranno testare i loro modelli con dati di qualità, ordinati e già “ripuliti”. Ma non si illudano: questa non è apertura, è razionalizzazione. È un invito a giocare in cortile, sotto lo sguardo vigile del proprietario, piuttosto che scalare il cancello in piena notte.
Sul piano tecnico, il dataset offre una base perfetta per modelli LLM che necessitano di segmenti strutturati e semantici, ottimi per il fine-tuning o per test di alignment. Ma è anche un modo per congelare lo stato dell’arte della conoscenza: il dataset non si aggiorna in tempo reale, non riflette la dinamicità dell’enciclopedia vivente che Wikipedia rappresenta. Chi vorrà il flusso aggiornato, dovrà comunque passare dalla porta principale – quella che Wikimedia può aprire o chiudere a piacere.
Insomma, più che un’apertura verso l’AI, sembra un tentativo di domarla. Di offrire una versione domestica della conoscenza, sterilizzata e standardizzata, con licenza open ma con controllo centralizzato. Come se l’enciclopedia libera per definizione stesse finalmente accettando che nel mondo dell’intelligenza artificiale, tutto ciò che è veramente utile, va comunque imballato, marchiato, e messo su uno scaffale con etichetta “beta”.
DATASET: https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents