Il CEO di Google Sundar Pichai ha dichiarato: “Siamo pienamente nella nostra era Gemini “, aprendo martedì il discorso programmatico per la conferenza Google I/O 2024 a Mountain View, in California.

Un giorno dopo che OpenAI, sostenuta da Microsoft (MSFT), ha rilasciato GPT-4o con le sue innumerevoli nuove funzionalità, Google ha rilanciato svelando una serie di nuovi impieghi per Gemini 1.5 Pro, integrandolo in quasi tutti i prodotti offerti.

“I nostri agenti mostrano ragionamento, pianificazione e memoria”, ha detto Pichai. “Possono pensare a molti passi avanti. La potenza di Gemini con la multimodalità avvicina l’uso al nostro obiettivo finale di rendere l’intelligenza artificiale utile per tutti.”

Gemini 1.5 Pro: Multimodalità e nuove funzionalità

Similmente agli aggiornamenti di GPT-4o di OpenAI, Gemini 1.5 Pro sarà ora in grado di comunicare con gli utenti non solo tramite testo, ma anche tramite istruzioni audio e visive. Questa nuova versione introduce funzionalità avanzate di ragionamento, pianificazione e memoria, permettendo agli agenti di elaborare informazioni complesse e pianificare azioni su più fasi.

Ricerca potenziata da Gemini: un’esperienza rivoluzionaria

“Con l’intelligenza artificiale generativa, la ricerca farà più di quanto potresti mai immaginare”. “Abbiamo una versione modificata di Gemini per eseguire la ricerca. Sblocca nuove funzionalità dell’agente direttamente nella ricerca.”

Liz Reid, responsabile della ricerca di Google

Invece di cercare una singola persona, luogo o cosa, la ricerca potenziata da Gemini può rispondere a una serie di domande contemporaneamente e creare un piano per l’utente. Ad esempio, può:

  • Creare un piano alimentare settimanale basato sulle preferenze personali, inserendo automaticamente gli ingredienti necessari in un carrello della spesa.
  • Pianificare un viaggio di anniversario con i dettagli completamente organizzati in base al periodo dell’anno.

La ricerca assistita da Gemini sarà resa disponibile a tutti da subito e raggiungerà più di 1 miliardo di utenti entro la fine dell’anno.

Integrazione in Google Workspace e nuove applicazioni

Gemini verrà implementato anche in Google Workspace, disponibile a partire dal prossimo mese. Google ha inoltre introdotto Gemini 1.5 Flash, un modello più leggero ed efficiente, disponibile da oggi su Google AI Studio.

Tra le nuove applicazioni basate su Gemini:

VideoFX: crea video 1080p utilizzando GenAI, disponibile per alcuni creatori di contenuti nelle prossime settimane.

Imagen 3: il generatore di immagini più potente di Google, ora disponibile per la prova gratuita su LABS.GOOGLE.

La nuova funzionalità Ask Photos in Google Photos migliora la ricerca di immagini consentendo query naturali come “Mostrami la miglior foto dei parchi nazionali che ho visitato”. Questa funzione permette agli utenti di creare storie visive, come mostrare la crescita di un bambino attraverso le foto, semplicemente chiedendolo a Google Photos.

Google prevede di rilasciare Gemma 2 a giugno. Si tratta di un modello più grande del Gemma originale, con 27 miliardi di parametri, disponibile nelle versioni con 2 miliardi e 7 miliardi di parametri. Gemma 2 è un modello open-source più leggero di Gemini, paragonabile al Llama 3 di Meta .

Su Android, la funzionalità multimodale Gemini Nano migliora la funzione Cerchia e Cerca, consentendo agli utenti di cerchiare problemi di matematica per ottenere soluzioni. Inoltre, l’app Gemini supporterà presto funzionalità di overlay per varie applicazioni, permettendo agli utenti di utilizzare l’IA in modi diversi, come trascinare e rilasciare immagini generate in email o richiedere informazioni da video YouTube.

Gemini Advanced, un piano a pagamento, offre ampie capacità con una finestra di contesto di 1 milione di token, consentendo compiti come riassumere rapidamente documenti o email di grandi dimensioni. Gli abbonati potranno presto godere di un’esperienza conversazionale con Gemini Live, creando Gems personalizzati simili agli agenti GPT di OpenAI, adattati per attività come allenamento personale, cucina, assistenza alla programmazione o guida alla scrittura creativa.

Project Astra mostra il futuro degli assistenti IA, sfruttando i modelli Gemini per una più veloce elaborazione delle informazioni e una codifica continua degli input video e vocali. Questo progetto introduce agenti IA sperimentali per smartphone e occhiali AR, migliorando le interazioni degli utenti attraverso l’elaborazione delle informazioni in tempo reale e una gestione efficiente dei compiti.

Il modello di generazione video più avanzato di Google DeepMind, Veo, rappresenta un notevole passo avanti nell’ambito della creazione di video di alta qualità. Questo potente modello è in grado di generare video in risoluzione 1080p, con una durata superiore a un minuto e in una vasta gamma di stili cinematografici e visivi, offrendo così un’ampia flessibilità creativa.

Veo si distingue per la sua capacità di prendere in input immagini o video insieme a messaggi testuali, consentendo di animare le immagini o modificare i video in base alle istruzioni fornite. Inoltre, supporta la modifica mascherata, che permette di apportare modifiche specifiche ad aree selezionate del video aggiungendo un’area mascherata al video e al messaggio di testo.

Dal punto di vista tecnico, Google ha implementato miglioramenti significativi nei dati di formazione di Veo, aggiungendo dettagli alle didascalie di ciascun video e utilizzando rappresentazioni video compresse di alta qualità per ottimizzare le prestazioni, la velocità di generazione e l’efficienza complessiva del modello. Questi aggiornamenti contribuiscono a potenziare le capacità di Veo e a garantire risultati di generazione video sempre più sofisticati e di alta qualità.

Conclusione.

Con l’introduzione di Gemini e le sue numerose applicazioni, Google si posiziona come un concorrente diretto di OpenAI e del suo GPT-4. La multimodalità, le funzionalità avanzate e l’integrazione in diversi prodotti Google promettono di rivoluzionare l’esperienza utente in diversi ambiti, dalla ricerca alla creazione di contenuti.

Pichai ha concluso la presentazione chiedendo a Gemini quante volte qualcuno avesse usato la parola “AI” durante il keynote, ricevendo la risposta: “120 volte”.

Un chiaro segnale di come l’intelligenza artificiale stia diventando sempre più centrale nella strategia di Google.