L’Ascensione della Visione di OpenAI: ChatGPT Svela la Magia del Video in Diretta

OpenAI ha finalmente acceso la tanto attesa funzionalità video di ChatGPT, trasformando i telefoni in potenti analizzatori AI in tempo reale. Dopo mesi di attesa, dall’anteprima iniziale di maggio, la nuova funzione è stata lanciata giovedì scorso, aggiungendo uno strato dinamico all’assistente potenziato dall’intelligenza artificiale.

Prima di questo aggiornamento, ChatGPT era in grado di gestire testi, grafici, input vocali e foto fisse, ma il video era decisamente assente. Ora, gli utenti possono puntare i loro telefoni su oggetti e avviare conversazioni fluide e in tempo reale con l’AI. Durante i test, l’AI ha risolto problemi matematici, offerto consigli per la cucina, creato storie e persino intrattenuto i bambini con giochi educativi interattivi. È la tata digitale che non sapevi di aver bisogno—mia figlia ora ha un partner nella preparazione dei pancake che è più bravo di me a fare incoraggiamenti.

Questa mossa arriva subito dopo la recente presentazione dell’assistente AI Gemini 2.0 di Google, che vanta funzionalità abilitate dalla fotocamera. Anche Meta è in gara con un assistente AI che vede e dialoga attraverso le fotocamere dei telefoni, rendendo la battaglia per la visione potenziata dall’AI più intensa che mai.

Tuttavia, le nuove funzionalità di OpenAI non sono ancora destinate al grande pubblico. La funzione “Advanced Voice Mode with Vision” è disponibile solo per gli abbonati a Plus, Team e Pro. Il piano Plus costa 20 dollari al mese, mentre il piano Pro arriva a un premium di 200 dollari.

“Siamo entusiasti di annunciare che stiamo portando il video nella modalità Advanced Voice in modo che tu possa integrare video dal vivo e condivisione dello schermo nelle tue conversazioni con ChatGPT,” ha dichiarato Kevin Weil, Chief Product Officer di OpenAI, durante lo stream di lancio di giovedì.

L’annuncio è stato fatto nell’ambito della campagna “12 Days of OpenAI”, un calendario dell’avvento tecnologico che svela una nuova funzione ogni giorno. Finora, l’azienda ha rilasciato il modello o1 per tutti gli utenti, lanciato il piano ChatGPT Pro da 200 dollari al mese, introdotto il fine-tuning per modelli personalizzati, presentato la sua app generativa di video Sora e ampliato la sua funzionalità canvas. Il colosso tecnologico ha anche spinto ChatGPT nell’ecosistema Apple tramite Apple Intelligence.

La demo dal vivo ha mostrato quanto naturalmente ChatGPT potenziato dal video possa interagire. Gli utenti attivano la modalità video nella stessa interfaccia della modalità Advanced Voice e avviano conversazioni in tempo reale. Le sue capacità di visione a bassa latenza consentono risposte immediate e consapevoli del contesto, rendendo l’esperienza fluida e intuitiva.

Arrivare a questo punto non è stato semplice. OpenAI aveva promesso inizialmente questa funzionalità ad aprile, ma ha dovuto affrontare delle difficoltà quando l’AI ha imitato controversamente la voce dell’attrice Scarlett Johansson senza il suo consenso. Poiché la modalità video dipende dalla modalità Advanced Voice, lo scandalo ha ritardato il rilascio della funzione.

Nel frattempo, Google non resta con le mani in mano. Il suo Project Astra, ora nelle mani dei tester fidati, promette un’AI che comprende più lingue, attinge da Google Search e Maps e ricorda le conversazioni fino a 10 minuti. Google prevede che l’AI evolva in veri e propri AI Agents in grado di eseguire compiti in tempo reale, non solo di conversare.

Meta, con l’obiettivo di assumere un ruolo da protagonista in questa corsa all’intelligenza artificiale, ha presentato il suo assistente Meta AI a settembre. Il sistema riflette le capacità di OpenAI e Google, ma con un’aggiunta: la realtà aumentata. Il segreto di Meta? Gli occhiali intelligenti chiamati Project Orion, dotati di fotocamere integrate discrete per interazioni AI nel mondo reale.

Gli utenti di ChatGPT Plus possono provare le nuove funzionalità video toccando l’icona del microfono accanto alla barra di chat e premendo il pulsante video. La condivisione dello schermo è solo a un tocco di distanza tramite il menu a tre punti.

Gli utenti aziendali ed educativi non dovranno aspettare a lungo, poiché il lancio si estenderà a loro a gennaio. Per quanto riguarda gli abbonati dell’UE? Dovranno aspettare: la modalità video non ha ancora attraversato l’Atlantico.

L’Ascensione della Visione di OpenAI: ChatGPT Svela la Magia del Video in Diretta

La scalata strategica di Broadcom nel mercato dei chip AI

Intrigati dall’AI ma alla ricerca di qualcosa di più di semplici chatbot? Gli agenti potrebbero essere la risposta