ByteDance, in collaborazione con l’Università di Hong Kong, ha presentato Goku e Goku+, una nuova famiglia di modelli di intelligenza artificiale progettati per superare il divario tra la generazione di immagini e quella di video. Grazie a un’architettura unificata e tecniche avanzate di elaborazione visiva, questi modelli stanno ridefinendo gli standard del settore, ottenendo prestazioni da record nei principali benchmark visivi e aprendo nuove possibilità per la creazione di contenuti commerciali iperrealistici.
A differenza dei tradizionali modelli di AI, che trattano immagini e video come due entità separate, Goku utilizza una struttura unificata che gli consente di eccellere in entrambi i campi. La chiave di questo successo è una tecnica innovativa chiamata “flusso rettificato”, che permette transizioni perfette tra immagini statiche e sequenze animate. Addestrato su 160 milioni di immagini e 36 milioni di video, Goku garantisce una qualità senza precedenti, stabilendo nuovi standard di fotorealismo e coerenza visiva.
Se Goku rappresenta un salto di qualità nella generazione visiva, Goku+ porta questa innovazione nel mondo del marketing e della pubblicità. La sua piattaforma avanzata include strumenti specializzati per:
Creare avatar umani fotorealistici con espressioni e movimenti naturali, ideali per campagne pubblicitarie immersive;
Trasformare semplici immagini di prodotto in videoclip ad alto impatto visivo, migliorando la presentazione e l’engagement;
Realizzare interazioni realistiche tra persone e prodotti, rendendo più efficace la comunicazione visiva per l’e-commerce e le strategie digitali.
È indubbio che siamo di fronte ad un ulteriore nuovo livello di sofisticazione nella produzione di contenuti generati dall’AI, potenzialmente in grado di trasformare radicalmente la produzione video con impatti diretti sul mondo del marketing e anche della produzione (immaginiamo la riduzione dei tempi e quindi anche dei costi di produzione per le aziende).
Per avere un’idea di come, con questo set di AI, ByteDance non si limiti solo ad innovare nel settore dell’Intelligenza Artificiale visiva, ma anche a ridefinire il futuro della comunicazione digitale, vi proponiamo qui di seguito alcuni demo di video realizzati con Goku e Goku+
PROMPT – A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.PROMPT – Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.PROMPT – This close-up shot of a chameleon showcases its striking color changing capabilities. The background is blurred, drawing attention to the animal’s striking appearance.PROMPT – A bear driving a carPROMPT – A handheld shot chasing after a group of friends laughing and playing on the beach at sunsetPROMPT – Tracking shot. Cinematic scene. A 19th century scuba diver runs down a busy street in New York City. The light is natural and warm, glinting off of the diver’s suit. The diver’s suit is burnished and old, held together with rusted bolts. The diver’s helmet is round, with a black round glass porthole in the front. All around the diver, people walk down the street in period specific attire, such as large corset dresses with sweeping skirts, tailored suits, and top hats. The scene should feel joyful and amusing, heightening the thrill of the running diver.PROMPT – A casual, everyday photo—candid, possibly taken secretly or spontaneously, without artistic posing, without perfect composition, and with no filters. The lighting is natural, and the overall feel is natural. The subject is a 21-year-old woman of European descent, fair-skinned with blonde hair and blue eyes, and she is quite attractive. She’s wearing a woolen dress with a small microphone pinned to it—perhaps she’s being interviewed? The setting is indoors, her hands aren’t visible in the frame, and she is looking at the viewer. It’s a half-length shot, taken in a casual, everyday manner.PROMPT – A 55-year-old, beautiful Asian woman with fair, delicate skin and smooth, shiny hair is wearing conservative clothing, seated in a luxurious Frenchstyle bathroom. This is a close-up shot of her face, from a near distance. She is sitting naturally, facing the camera, and chatting with us.PROMPT – In a realistic medium shot with a static camera, a koala stands on a tree trunk, gently chewing eucalyptus leaves. The koala’s expression is calm, and it is covered in soft, grey and white fur. The background features a clear blue sky and some lush green foliage, creating a serene and natural environment.
Probabilmente l’unica cosa da migliorare è il lip-synk nei due video che precedono ma, complessivamente, il risultato è assolutamente impressionante.
Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale: iscriviti alla nostra newsletter gratuita e accedi ai contenuti esclusivi di Rivista.AI direttamente nella tua casella di posta!