Secondo un recente rapporto di Wired, molti dei principali siti web e social media hanno scelto di escludere i loro contenuti dall’addestramento dell’intelligenza artificiale di Apple, chiamata Apple Intelligence.
Tra i siti che hanno optato per l’esclusione ci sono:
- Facebook e Instagram
- Craigslist e Tumblr
- The New York Times, The Financial Times, The Atlantic
- Vox Media
- USA Today
- Condé Nast (proprietaria di Wired)
Questa pratica è resa possibile da Apple, che consente agli editori web di scegliere se permettere o meno l’utilizzo dei loro contenuti per addestrare i modelli di intelligenza artificiale di Apple Intelligence.
Un’analisi separata condotta questa settimana ha rilevato che poco più di un quarto dei siti di notizie esaminati (294 su 1.167 pubblicazioni principalmente in lingua inglese con sede negli Stati Uniti) stanno bloccando Applebot-Extended.
Accordi di licenza con OpenAI
Alcuni dei siti che hanno escluso i loro contenuti dall’addestramento di Apple Intelligence hanno invece firmato accordi di licenza con OpenAI, il creatore di ChatGPT.
Tra questi ci sono:
- The Financial Times
- The Atlantic
- Vox Media
Questi accordi consentono ad OpenAI di utilizzare i contenuti di queste testate per addestrare i propri modelli di intelligenza artificiale e includerli all’interno di ChatGPT.
Al contrario, The New York Times ha intrapreso un’azione legale contro OpenAI e il suo sostenitore Microsoft per presunte violazioni del copyright.
Come Apple raccoglie i dati per l’addestramento
Apple ha spiegato che i modelli di intelligenza artificiale di Apple Intelligence vengono addestrati su una combinazione di dati concessi in licenza, dataset pubblici curati e informazioni pubblicamente disponibili raccolte dal suo web crawler Applebot.
Tuttavia, Apple rispetta il diritto degli editori web di scegliere di non essere indicizzati da Applebot utilizzando le direttive standard robots.txt.
Apple afferma anche di non utilizzare mai i dati privati o le interazioni degli utenti Apple per addestrare i propri modelli di intelligenza artificiale[4]. Inoltre, applica filtri per rimuovere informazioni identificative personali, parolacce e contenuti di bassa qualità dal corpus di addestramento.