Perplexity AI, una startup californiana specializzata in intelligenza artificiale generativa, è stata accusata di aver effettuato lo scraping di articoli di Forbes e altre testate giornalistiche per alimentare la sua nuova funzionalità Pages.

Perplexity AI ha ricevuto un investimento di 74 milioni di dollari da parte di Jeff Bezos, fondatore di Amazon, e altri investitori, raggiungendo una valutazione di 520 milioni di dollari. Tra i finanziatori ci sono anche ex dirigenti di Alphabet, la holding di Google.

Come funziona

Perplexity AI integra diverse fonti e tecnologie di terze parti per migliorare le sue capacità di ricerca e fornire risposte complete. Utilizza principalmente grandi modelli linguistici (LLM) come GPT-3.5 e GPT-4 di OpenAI, Claude 2 di Anthropic e Gemini (precedentemente noto come Bard) di Google DeepMind. Questi modelli aiutano Perplexity a generare risposte dettagliate e accurate analizzando e compilando informazioni da varie fonti online.

Inoltre, Perplexity AI incorpora dati da numerose piattaforme e database online, come Wolfram|Alpha, Wikipedia, Reddit, YouTube, articoli di notizie e documenti accademici. Questa vasta gamma di fonti consente a Perplexity di fornire informazioni diversificate e aggiornate.

Per le sue funzionalità aziendali, Perplexity offre anche funzionalità come pagine web personalizzabili e report, sfruttando i suoi modelli di ricerca AI per raccogliere e presentare informazioni in un formato user-friendly.

Il motore di ricerca AI pone l’accento sulla trasparenza citando apertamente le sue fonti di informazione, garantendo che gli utenti possano verificare la credibilità delle informazioni fornite. Questo approccio non solo aumenta la fiducia, ma promuove anche un’esplorazione approfondita delle conoscenze.

Questa funzionalità permette agli utenti di creare pagine web personalizzate a partire da una query di ricerca, generando contenuti molto simili a quelli pubblicati da Forbes, CNBC, Bloomberg e altre fonti.

Forbes ha notato che Pages genera articoli quasi identici a quelli originali pubblicati sulla rivista, senza citare chiaramente la fonte. Alcuni frammenti testuali sembravano essere copiati pedissequamente da un reportage esclusivo di Forbes sul progetto di droni segreti di Eric Schmidt, ex CEO di Google. Questo avrebbe sottratto oltre 17.000 visualizzazioni al sito originale, creando una concorrenza economica.

Perplexity ignora il blocco dello scraping

Un’inchiesta di Wired ha inoltre rivelato che Perplexity ignora il blocco per i crawler nel file robots.txt degli editori, accedendo all’intero sito (anche a quelli di altri siti del gruppo Condé Nast) utilizzando un server cloud di Amazon[4]. Il chatbot genera quindi articoli “fotocopia”, cambiando solo la disposizione dei paragrafi o usando parafrasi.

Le fonti sono poco riconoscibili e in alcuni casi il chatbot attribuisce erroneamente un articolo alla fonte sbagliata Wired ha definito Perplexity una “bullshit machine” che crea contenuti falsi e inaffidabili.

Richieste di rimozione e risarcimento da Forbes

Il team legale di Forbes ha inviato una lettera a Perplexity chiedendo la rimozione degli articoli, un rimborso pari ai guadagni ottenuti dalla violazione del copyright e la garanzia scritta che non verranno più usati i contenuti della rivista.Se Perplexity non risponderà entro 10 giorni, Forbes presenterà una denuncia.

Inizialmente il CEO di Perplexity, Aravind Srinivas, aveva ammesso alcuni difetti del servizio, sostenendo che Pages avrebbe portato molto traffico a Forbes. Successivamente ha precisato che Perplexity non ignora il Robot Exclusions Protocol, ma non ha rivelato il nome del web crawler di terze parti responsabile.

Questo caso dimostra le sfide etiche e legali poste dall’intelligenza artificiale generativa nei confronti del diritto d’autore[3]. Le attuali normative sul copyright sembrano insufficienti, sollevando interrogativi su come bilanciare innovazione tecnologica e tutela dei contenuti online.