OpenAI ha appena alzato l’asticella dell’intelligenza artificiale con l’introduzione di Images in ChatGPT, una funzionalità che permette di generare immagini direttamente all’interno della chat utilizzando GPT-4o. Questa evoluzione segna un passo decisivo nell’integrazione dell’AI multimodale, rendendo il chatbot non solo un maestro della parola, ma anche della creazione visiva.
L’accesso a questa funzione sarà garantito a tutti gli utenti, indipendentemente dal piano di abbonamento, con limitazioni simili a quelle già viste con DALL·E. Il portavoce di OpenAI, Taya Christianson, ha però evitato di rivelare numeri precisi sui limiti della versione gratuita, lasciando intendere che potrebbero variare in base alla domanda. DALL·E, per ora, non verrà abbandonato, ma relegato a un “custom GPT” per chi vuole continuare a usarlo.
Ma cosa rende davvero rivoluzionario questo aggiornamento?
Il vero salto di qualità: precisione e coerenza nelle immagini generate
Secondo il ricercatore Gabriel Goh, questo nuovo sistema si basa su GPT-4o omnimodale, capace di gestire simultaneamente testo, immagini, audio e video. Uno degli aspetti più innovativi è il miglioramento nella “binding”, ossia la capacità di rispettare la relazione tra oggetti e attributi all’interno di un’immagine. Se i modelli precedenti faticavano a mantenere coerenza tra forme e colori oltre un certo numero di elementi, Images in ChatGPT riesce a gestire tra 15 e 20 oggetti senza confusione, un risultato senza precedenti nel settore.
Anche la resa del testo all’interno delle immagini ha fatto un salto in avanti. Chi ha provato a generare scritte con AI sa bene quanto sia frustrante ottenere parole distorte, illeggibili o piene di errori. OpenAI ha investito mesi di lavoro per ridurre queste imprecisioni, arrivando a un livello in cui i testi risultano leggibili e coerenti, tranne nei casi di caratteri particolarmente piccoli.
La tecnologia alla base di questo miglioramento è altrettanto interessante. Mentre la maggior parte dei modelli usa la diffusione per generare un’intera immagine in un unico passaggio, OpenAI ha scelto un approccio autoregressivo, costruendo le immagini pezzo dopo pezzo, in modo simile a come scriviamo un testo. Questo processo sembra essere la chiave per il miglioramento nella gestione del testo e delle relazioni tra gli oggetti.
Applicazioni reali: dal design alla scienza, passando per il marketing
Durante una dimostrazione, il team di OpenAI ha presentato immagini generate con una precisione che sfiora il fotorealismo e con una capacità di coerenza spaziale mai vista prima. Tra gli esempi mostrati:
- Diagrammi scientifici dettagliati, come l’esperimento del prisma di Newton, con etichette posizionate correttamente.
- Fumetti con personaggi coerenti, mantenendo espressioni e stili uniformi da una vignetta all’altra.
- Manifesti pubblicitari e menù di ristoranti, con testo leggibile e ben formattato.
- Immagini con sfondo trasparente, utili per adesivi, loghi e elementi grafici da integrare in progetti.
L’idea, come sottolineato da Jackie Shannon, responsabile del prodotto multimodale di ChatGPT, è che l’AI non si limita a disegnare, ma attinge alla conoscenza del mondo per creare immagini con un contesto preciso. Non serve spiegare in dettaglio cosa si vuole ottenere: il modello lo sa già e lo rappresenta con un’accuratezza sorprendente.
Più qualità, ma a un prezzo: il tempo di generazione aumenta
Un miglioramento del genere non arriva senza compromessi. La generazione delle immagini richiede più tempo rispetto a prima, ma OpenAI ritiene che la qualità ottenuta valga la pena dell’attesa. Shannon ha riconosciuto che c’è ancora margine per ridurre la latenza, ma per ora l’obiettivo è offrire immagini più precise e dettagliate.
Sicurezza e trasparenza: OpenAI impara dagli errori di Google e xAI
In un momento in cui le immagini AI sono sotto i riflettori per il rischio di deepfake e contenuti manipolati, OpenAI ha deciso di rafforzare i controlli sulla sicurezza. Secondo il team, il modello impedisce:
- La rimozione di watermark dalle immagini esistenti.
- La generazione di deepfake a sfondo sessuale.
- La creazione di contenuti CSAM (abusi su minori).
A differenza di altre aziende, OpenAI ha scelto di non inserire watermark visibili nelle immagini, ma di adottare il sistema di metadata C2PA, che permette di verificare l’origine di un’immagine. Inoltre, OpenAI sta sviluppando strumenti interni per il tracciamento delle immagini generate.
Un dettaglio interessante è che gli utenti saranno i reali proprietari delle immagini create e potranno utilizzarle liberamente, purché rispettino le policy d’uso.
Il futuro dell’AI generativa passa da ChatGPT
Con questa mossa, OpenAI non solo migliora la propria tecnologia, ma manda un segnale chiaro ai concorrenti: il futuro dell’AI generativa non è solo testo, ma un’interazione completa tra linguaggio, immagini e dati visivi.
Mentre Google, Microsoft e altre aziende cercano di risolvere i problemi delle loro AI visive, OpenAI sembra essere riuscita a offrire un prodotto più affidabile e con applicazioni concrete. Il vero nodo resta la regolamentazione e il controllo sull’uso improprio delle immagini generate, un tema destinato a diventare sempre più caldo nei prossimi mesi.