Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Tag: Video

Amazon sfida i colossi dell’AI con un nuovo modello LLM per la ricerca video, Olympus

Amazon ha annunciato lo sviluppo di un innovativo modello di intelligenza artificiale, progettato per effettuare ricerche approfondite e analisi nei contenuti video. Questa iniziativa rappresenta un tentativo di posizionarsi come leader nel settore, differenziandosi anche dai partner come Anthropic, con cui l’azienda collabora ma di cui sembra voler competere direttamente.

AI Modelli per Immagini Video Vasa-1 di Microsoft: video facciale iperrealistico e sincronizzazione labiale da una singola immagine

Microsoft ha recentemente introdotto VASA-1, un modello di intelligenza artificiale che produce video realistici di volti parlanti da una singola immagine statica e una clip audio.

Il modello è in grado di produrre video con una risoluzione di 512×512 pixel e una frequenza di 40 fotogrammi al secondo (FPS), con una latenza di soli 170 millisecondi sui sistemi GPU NVIDIA RTX 4090.

L’architettura del modello si basa su un approccio di diffusione.

A differenza dei metodi tradizionali che trattano le caratteristiche facciali separatamente, VASA-1 utilizza un modello basato sulla diffusione per generare dinamiche facciali e movimenti della testa in modo olistico. Questo metodo considera tutte le dinamiche facciali, come il movimento delle labbra, l’espressione e i movimenti degli occhi, come parti di un unico modello completo.

VASA-1 opera all’interno di uno spazio latente del viso districato ed espressivo, che gli permette di controllare e modificare le dinamiche facciali e i movimenti della testa indipendentemente da altri attributi facciali come l’identità o l’aspetto statico.

Il modello è stato addestrato su un set di dati ampio e diversificato, che gli consente di gestire un’ampia gamma di identità facciali, espressioni e modelli di movimento. Questo approccio di addestramento aiuta il modello a funzionare bene anche con dati di input che si discostano da ciò su cui è stato addestrato, come input audio non standard o immagini artistiche.

L’addestramento del modello prevede tecniche avanzate di districamento, che consentono la manipolazione separata delle caratteristiche facciali dinamiche e statiche. Ciò si ottiene attraverso l’uso di codificatori distinti per diversi attributi e una serie di funzioni di perdita attentamente progettate per garantire un’efficace separazione di queste caratteristiche.

VASA-1 è stato rigorosamente testato rispetto a vari benchmark e ha dimostrato di superare significativamente i metodi esistenti in termini di realismo, sincronizzazione degli elementi audiovisivi ed espressività delle animazioni generate.

Nonostante i risultati promettenti, la ricerca riconosce alcuni limiti del modello, come l’incapacità di elaborare le dinamiche di tutto il corpo o di catturare completamente elementi non rigidi come i capelli. Tuttavia, sono previsti lavori futuri per espandere le capacità del modello e affrontare queste aree.

L’Intelligenza Artificiale (AI) per immagini e video ha rivoluzionato molti settori, tra cui il riconoscimento di oggetti, l’analisi delle immagini mediche, la sorveglianza di sicurezza, la creazione di contenuti multimediali e molto altro. Ecco alcuni esempi di come l’AI viene utilizzata per immagini e video:

Altri esempi di Modelli in allegato


Newsletter AI – non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Adobe ha affermato che sta lavorando sulla tecnologia di generazione video

Adobe ha iniziato a raccogliere video per sviluppare il suo generatore di testo in video basato su intelligenza artificiale, secondo quanto riportato da Bloomberg News, citando alcuni documenti.

Il colosso della tecnologia offre alla sua rete di fotografi e artisti 120 dollari per inviare video di persone che svolgono attività quotidiane come camminare o esprimere emozioni come gioia e rabbia, tra le altre cose.

Tuttavia, l’azienda avverte di non fornire materiale protetto da copyright, nudità o altri “contenuti offensivi”. L’obiettivo è ottenere risorse per addestrare l’intelligenza artificiale, aggiunge il rapporto.

Il pagamento per il contenuto ammonta in media a circa 2,62 al minuto di video inviato, anche se potrebbe arrivare fino a circa 2,62 alminuto di video inviato, anche se potrebbe arrivare fino a circa 7,25 al minuto.

Nell’ultimo anno, Adobe si è concentrata sull’aggiunta di funzionalità di intelligenza artificiale generativa al suo portafoglio di software, inclusi Photoshop e Illustrator. Secondo il rapporto, la società ha lanciato servizi che utilizzano il testo per produrre immagini e illustrazioni che finora sono state utilizzate miliardi di volte.

Adobe, sta cercando di raggiungere i rivali dopo che OpenAI ha mostrato una tecnologia simile.

OpenAI, sostenuta da Microsoft , ha dimostrato il suo modello di generazione video chiamato Sora, preoccupando gli investitori che il leader del software creativo potrebbe essere influenzato dalla nuova tecnologia.

Google, il Weizmann Institute of Science e l’Università di Tel Aviv hanno pubblicato un documento in cui viene annunciato Lumiereun “modello di diffusione spazio-temporale” in grado di generare brevi video realistici e stilizzati, con opzioni di modifica a comando, sfruttando un modello di intelligenza artificiale generativa.

Adobe ha affermato che sta lavorando sulla tecnologia di generazione video e prevede di discuterne di più nel corso dell’anno, osserva il rapporto.

Il contenuto utilizzato per addestrare modelli linguistici di grandi dimensioni, o LLM, è diventato una questione controversa.

Il mese scorso, tre autori hanno intentato una causa contro Nvidia (NVDA) sostenendo che la società ha utilizzato i loro libri protetti da copyright senza permesso per addestrare la sua piattaforma di intelligenza artificiale NeMo.

Nel novembre 2023, la New York Times Company ha citato in giudizio Microsoft e OpenAI per violazione del copyright, sostenendo che le società hanno utilizzato illegalmente il contenuto del giornale per addestrare modelli di intelligenza artificiale.

Il mese scorso, Mira Murati, Chief Technology Officer di OpenAI, aveva dichiarato in un’intervista al Wall Street Journal di non essere sicura se Sora fosse addestrato sui video generati dagli utenti da YouTube di Google, un’unità di Alphabet e Meta Piattaforme Facebook e Instagram, secondo il rapporto.

Tuttavia, Adobe ha adottato misure per differenziare i propri modelli formandoli principalmente sulla sua libreria di supporti stock per operatori di marketing e agenzie creative.

Laddove la libreria stock non è all’altezza, la società ha procurato immagini dai contributori e ha anche offerto un compenso ai contributori per inviare una grande quantità di foto per la formazione sull’intelligenza artificiale. Questi lavori venivano pagati tra 6 e 16 centesimi per immagine, osserva il rapporto.

Adobe lancia CAVA per rivoluzionare il video editing e l’animazione dopo il debutto di Sora di OpenAI

Adobe risponde ad OpenAI. Subito dopo il lancio di Sora, il nuovo modello AI per il video editing della società guidata da Sam Altman, la software house di San José ha creato una nuova organizzazione di ricerca sull’Intelligenza Artificiale composta da 50 persone, chiamata CAVA (Co-Creation for Audio, Video, & Animation).

L’obiettivo è quello di accelerare gli sforzi nella creazione di video e animazioni che fino ad ora sono stati un po’ trascurati rispetto allo sviluppo di strumenti di AI generativa per la creazione di immagini (Firefly, Photoshop Generative Fill ecc.). D’altra parte l’area DI o Digital Imaging di Adobe, responsabile del colosso Photoshop e di strumenti come Lightroom, è quella che contribuisce per la maggior parte alle entrate della società.

Adesso invece il gruppo DVA o Digital Video & Audio, che sviluppa strumenti come Premiere, After Effects e Audition, dovrebbe ricevere più attenzione e risorse, stando almeno alle dichiarazioni di Gautham Mysore, Head of Audio e Video AI Research di Adobe.


Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Sora vs DALL-E: generatore di video e di immagini a confronto

Uno degli argomenti mainstream in queste ore è indubbiamente il nuovo modello di AI generativa Sora, appena lanciato da OpenAI. Siccome il suo funzionamento è molto simile allo strumento AI di generazione di immagini DALL-E sempre realizzato da OpenAI, qualcuno ha voluto mettere a confronto i due sistemi per vedere che tipo di output restituissero.

La sfida è semplice: lo stesso prompt di testo utilizzato per creare uno dei video ad alta definizione prodotti da Sora in questa fase di test viene utilizzato per capire quale risultato mostrerà DALL-E.

Di seguito alcune simulazioni:

Scopri di più sulla nostra politica di embedding.

Google presenta Lumiere, l’AI generativa che crea video realistici partendo dalle singole immagini

Google ha sviluppato, insieme al Weizmann Institute of Science e all’Università di Tel Aviv, un nuovo modello di intelligenza artificiale per la creazione di video a partire da foto e istruzioni testuali: si chiama Lumiere, omaggio ai fratelli inventori della macchina da presa e del proiettore cinematografico.

La novità di Lumiere IA, dal punto di vista tecnologico, sta nella qualità con cui il software riesce a ricreare lo spostamento dei soggetti all’interno del filmato grazie ad un’architettura chiamata “Space-Ti-me U-Net”, una rete spazio-temporale, che genera tutto il video in un unico passaggio, senza passare da sequenze intermedie, che presentano il rischio di possibili
incoerenze con le immagini precedenti e le successive.

Il grosso del lavoro, ça va sans dire, è svolto dall’Intelligenza Artificiale generativa che sceglie il movimento migliore dopo averne analizzati diversi, basandosi sul vasto database a cui hanno accesso i modelli di Big G, in modo tale da restituire un video plausibile.

Il modello di Lumiere è stato addestrato su un set di dati di 30 milioni di video, insieme alle relative didascalie di testo. Va precisato però che non si tratta di un software aperto al pubblico, almeno per il momento, ma solo di un progetto sperimentale di ricerca.

CC BY-NC-SA 4.0 DEED | Disclaimer Contenuti | Informativa Privacy | Informativa sui Cookie