La chiusura del progetto Wordfreq, che mirava a monitorare e analizzare l’uso della lingua su varie piattaforme, è stata attribuita principalmente alla contaminazione dei suoi dati da parte dell’intelligenza artificiale generativa.

Monitorare e analizzare l’uso della lingua su varie piattaforme è fondamentale per comprendere le tendenze linguistiche, supportare la ricerca accademica e valutare l’apprendimento delle lingue. Questi dati offrono preziose informazioni su come la lingua si evolve in risposta a cambiamenti culturali e sociali, facilitano l’adattamento della comunicazione nei contesti digitali e aiutano a distinguere tra contenuti significativi e quelli generati automaticamente. Google ad esempio ha già reso pubblica la frequenza delle parole tramite il suo servizio ngram, che utilizza la letteratura pubblicata come riferimento/fonte

Questa situazione riflette problemi più ampi nel campo dell’elaborazione del linguaggio naturale (NLP) e solleva preoccupazioni significative sulla affidabilità della ricerca linguistica in un’era dominata dai contenuti generati dall’IA.

Uno dei fattori più critici che ha portato alla chiusura di Wordfreq è stato l’inquinamento dei dati causato dall’intelligenza artificiale generativa. Robyn Speer, la creatrice di Wordfreq, ha sottolineato che internet è diventato saturo di testi di bassa qualità generati da modelli di linguaggio di grandi dimensioni (LLM). Questi contenuti spesso mancano di un genuino intento comunicativo e possono fuorviare l’analisi linguistica. Ad esempio, Speer ha osservato che gli LLM come ChatGPT tendono a sovrautilizzare determinate parole—come “delve” (approfondire)—il che distorce la loro frequenza nei dataset, rendendo difficile trarre conclusioni accurate sull’uso della lingua umana dopo il 2021.

In precedenza, mentre lo spam esisteva nei contenuti online, era spesso identificabile e gestibile. Ora, però, il testo generato dall’IA può mascherarsi come linguaggio umano autentico, complicando gli sforzi per filtrare i dati inaffidabili. Questa infiltrazione ha reso inefficaci i metodi tradizionali di analisi linguistica, poiché i dataset non rappresentano più le tendenze linguistiche genuine.

Un altro problema significativo è il cambiamento del paesaggio dell’accessibilità ai dati. Wordfreq si basava fortemente sul web scraping per i suoi dataset, raccogliendo informazioni da piattaforme come Twitter e Reddit. Tuttavia, entrambi i servizi hanno recentemente limitato l’accesso ai loro dati. Le API pubbliche di Twitter sono state chiuse o rese proibitivamente costose, mentre Reddit ora vende i suoi archivi a prezzi elevati che sono sostenibili solo per grandi aziende come OpenAI. Questo cambiamento ha limitato severamente la disponibilità di dati linguistici conversazionali affidabili su cui Wordfreq faceva affidamento.

Speer ha evidenziato che anche quando Twitter consentiva l’accesso gratuito ai suoi dati, termini rigorosi impedivano la distribuzione al di fuori dell’organizzazione che li raccoglieva. Di conseguenza, gran parte dei dati preziosi precedentemente utilizzati per l’analisi non è più accessibile, diminuendo ulteriormente l’utilità di Wordfreq.

L’ascesa dell’IA generativa ha alterato fondamentalmente il panorama della ricerca nell’elaborazione del linguaggio naturale. Speer ha espresso preoccupazione per il fatto che le tecniche NLP tradizionali siano state oscurate dalle tecnologie di IA generativa che dominano i finanziamenti e l’attenzione nel settore. La concentrazione sull’addestramento degli LLM porta spesso a una dipendenza da dataset chiusi controllati da grandi aziende come OpenAI e Google. Questo controllo aziendale limita le opportunità di ricerca indipendente e crea una dipendenza da fonti di dati proprietarie.

Inoltre, man mano che l’IA generativa continua ad evolversi, consuma sempre più risorse e attenzione all’interno della comunità NLP, lasciando poco spazio per studi linguistici tradizionali. Speer ha indicato la sua riluttanza a impegnarsi in progetti che potrebbero involontariamente avvantaggiare i sistemi di IA generativa o contribuire alla loro proliferazione.

Ci sono anche preoccupazioni etiche riguardanti le pratiche di raccolta dei dati alla luce dell’ascesa dell’IA generativa. Molti proprietari di siti web stanno diventando difensivi riguardo al fatto che i loro contenuti vengano estratti per addestrare modelli senza un consenso o una compensazione adeguati. Questa reazione contro lo scraping web ha portato a regole più severe riguardo all’accesso ai dati, complicando ulteriormente gli sforzi per ricercatori come Speer che si basano su metodologie open-source

La chiusura di Wordfreq serve come un monito sui problemi affrontati dai ricercatori linguistici in un’epoca sempre più dominata dall’intelligenza artificiale generativa. L’inquinamento dei dataset linguistici da parte di testi AI di bassa qualità ha reso inefficaci i metodi tradizionali, mentre i cambiamenti nell’accessibilità ai dati hanno ulteriormente complicato gli sforzi di ricerca. Come ha affermato Robyn Speer, c’è una crescente necessità di nuovi framework e metodologie che possano adattarsi a questi cambiamenti mantenendo l’integrità e l’affidabilità della ricerca linguistica.

Robyn Speer è una figura di spicco nel mondo della tecnologia e del design, nota per il suo lavoro in Wordfrek, una piattaforma dedicata alla scrittura e alla pubblicazione. In qualità di co-fondatrice, Speer ha contribuito a sviluppare strumenti innovativi che supportano i creatori di contenuti nel loro processo di scrittura e pubblicazione, di seguito il suo commento :

Perché wordfreq non verrà aggiornato

I dati di wordfreq sono un’istantanea del linguaggio che poteva essere trovato in varie fonti online fino al 2021. Ci sono diversi motivi per cui non saranno più aggiornati.

L’intelligenza artificiale generativa ha inquinato i dati

Non credo che nessuno abbia informazioni affidabili sull’uso della lingua da parte degli esseri umani dopo il 2021.

Il Web aperto (tramite OSCAR) era una delle fonti di dati di wordfreq. Ora il Web in generale è pieno di scarti generati da grandi modelli linguistici, scritti da nessuno per comunicare nulla. Includere questi scarti nei dati distorce le frequenze delle parole.

Certo, c’era spam nelle fonti di dati wordfreq, ma era gestibile e spesso identificabile. I grandi modelli linguistici generano testo che si maschera da linguaggio reale con un’intenzione dietro, anche se non ce n’è nessuna, e il loro output spunta ovunque.

Ad esempio, Philip Shapira riferisce che ChatGPT (il famoso modello linguistico generativo di OpenAI del 2024 circa) è ossessionato dalla parola “delve” in un modo che le persone non hanno mai sperimentato prima, e ha fatto sì che la sua frequenza complessiva aumentasse di un ordine di grandezza.

Le informazioni che prima erano gratuite sono diventate costose

wordfreq non si occupa solo di parole formali stampate. Ha raccolto più usi del linguaggio colloquiale da due fonti in particolare: Twitter e Reddit.

I dati di Twitter sono sempre stati costruiti sulla sabbia. Anche quando Twitter ha consentito l’accesso gratuito a una parte del loro “firehose”, i termini di utilizzo non mi hanno permesso di distribuire quei dati al di fuori dell’azienda in cui li ho raccolti (Luminoso). Wordfreq ha le frequenze che sono state costruite con quei dati come input, ma i dati raccolti non mi appartenevano e non li ho più.

Ora Twitter è comunque scomparso, le sue API pubbliche sono state chiuse e il sito è stato sostituito con il giocattolo di un oligarca, una fogna di destra infestata da spam chiamata X. Anche se X rendesse disponibile il suo feed di dati grezzi (cosa che non fa), non ci sarebbero informazioni preziose da trovare lì.

Anche Reddit ha smesso di fornire archivi di dati pubblici e ora vende i propri archivi a un prezzo che solo OpenAI è disposto a pagare.

Non voglio più far parte di questa scena

wordfreq era all’intersezione dei miei interessi. Facevo linguistica di corpus in un modo che poteva anche giovare agli strumenti di elaborazione del linguaggio naturale.

Il campo che conosco come “elaborazione del linguaggio naturale” è difficile da trovare di questi tempi. È tutto divorato dall’intelligenza artificiale generativa. Esistono ancora altre tecniche, ma l’intelligenza artificiale generativa aspira tutta l’aria nella stanza e si prende tutti i soldi. È raro vedere ricerche NLP che non dipendano da dati chiusi controllati da OpenAI e Google, due aziende che già disprezzo.

wordfreq è stato creato raccogliendo un sacco di testo in un sacco di lingue. Una volta era una cosa abbastanza ragionevole da fare, e non il genere di cosa a cui qualcuno avrebbe potuto opporsi. Ora, gli strumenti di text-slurping sono usati principalmente per addestrare l’intelligenza artificiale generativa, e le persone sono giustamente sulla difensiva. Se qualcuno sta raccogliendo tutto il testo dai tuoi libri, articoli, sito Web o post pubblici, è molto probabile che stia creando una macchina antiplagio che rivendicherà le tue parole come proprie.

Quindi non voglio lavorare su nulla che possa essere confuso con l’intelligenza artificiale generativa o che possa avvantaggiarla.

OpenAI e Google possono raccogliere i loro dannati dati. Spero che debbano pagare un prezzo molto alto per questo, e spero che maledicano costantemente il pasticcio che hanno combinato.

—Robyn Speer

https://github.com/rspeer/wordfreq/blob/master/SUNSET.md