Tag: Video

Chi avrebbe mai detto che il futuro dei video generati dall’intelligenza artificiale avrebbe preso forma su un desktop da gaming? E invece eccoci qui: FramePack, la nuova architettura neurale firmata Lvmin Zhang (con la benedizione di Maneesh Agrawala da Stanford), è il perfetto esempio di quando la potenza di calcolo incontra l’intelligenza progettuale. Il risultato? Video AI da un minuto intero, di qualità notevole, sfornati su una GPU casalinga con appena 6GB di VRAM. Hai presente quelle workstation che sembravano necessarie per l’IA generativa? Dimenticale.

Il trucco non sta nella forza bruta, ma nell’ingegno algoritmico. FramePack reinterpreta la struttura della memoria nei modelli di diffusione video. Invece di accumulare informazioni temporali come un collezionista compulsivo di fotogrammi, li impacchetta in un contesto temporale a lunghezza fissa, ottimizzando il processo come un camionista zen che fa incastrare perfettamente i bagagli nel portabagagli. Questo riduce drasticamente il carico sulla GPU, permettendo di lavorare con modelli da 13 miliardi di parametri senza mandare in fumo la scheda video. Secondo gli autori, il costo computazionale è simile a quello della generazione di immagini statiche. E qui si sente già il tonfo delle vecchie soluzioni cloud, cadute rovinosamente dal loro piedistallo.

Google trasforma il tuo smartphone in un oracolo AI: Gemini Live ora “vede” e risponde in tempo reale

Di Redazione

il 24 Marzo 2025

in News

Google ha iniziato il rilascio di nuove funzionalità AI per Gemini Live, consentendo all’assistente di “vedere” lo schermo dello smartphone o l’ambiente circostante attraverso la fotocamera e rispondere in tempo reale. La conferma arriva direttamente da Alex Joseph, portavoce di Google, in un’email a The Verge. Dopo quasi un anno dalla presentazione del progetto Astra, finalmente l’azienda porta sul mercato queste capacità avanzate.

L’aggiornamento è già stato avvistato da un utente su Reddit, che ha condiviso un video dimostrativo della nuova funzione di lettura dello schermo su un dispositivo Xiaomi, come riportato da 9to5Google. Questa è solo una delle due caratteristiche annunciate da Google all’inizio di marzo e destinate agli utenti del piano Google One AI Premium, che offre accesso esclusivo alle funzionalità avanzate di Gemini.

Amazon sfida i colossi dell’AI con un nuovo modello LLM per la ricerca video, Olympus

Di Alessandra Innocenti

il 28 Novembre 2024

in AI

Amazon ha annunciato lo sviluppo di un innovativo modello di intelligenza artificiale, progettato per effettuare ricerche approfondite e analisi nei contenuti video. Questa iniziativa rappresenta un tentativo di posizionarsi come leader nel settore, differenziandosi anche dai partner come Anthropic, con cui l’azienda collabora ma di cui sembra voler competere direttamente.

AI Modelli per Immagini Video Vasa-1 di Microsoft: video facciale iperrealistico e sincronizzazione labiale da una singola immagine

Di Dina

il 18 Aprile 2024

in AI

Microsoft ha recentemente introdotto VASA-1, un modello di intelligenza artificiale che produce video realistici di volti parlanti da una singola immagine statica e una clip audio.

Il modello è in grado di produrre video con una risoluzione di 512×512 pixel e una frequenza di 40 fotogrammi al secondo (FPS), con una latenza di soli 170 millisecondi sui sistemi GPU NVIDIA RTX 4090.

L’architettura del modello si basa su un approccio di diffusione.

A differenza dei metodi tradizionali che trattano le caratteristiche facciali separatamente, VASA-1 utilizza un modello basato sulla diffusione per generare dinamiche facciali e movimenti della testa in modo olistico. Questo metodo considera tutte le dinamiche facciali, come il movimento delle labbra, l’espressione e i movimenti degli occhi, come parti di un unico modello completo.

VASA-1 opera all’interno di uno spazio latente del viso districato ed espressivo, che gli permette di controllare e modificare le dinamiche facciali e i movimenti della testa indipendentemente da altri attributi facciali come l’identità o l’aspetto statico.

Il modello è stato addestrato su un set di dati ampio e diversificato, che gli consente di gestire un’ampia gamma di identità facciali, espressioni e modelli di movimento. Questo approccio di addestramento aiuta il modello a funzionare bene anche con dati di input che si discostano da ciò su cui è stato addestrato, come input audio non standard o immagini artistiche.

L’addestramento del modello prevede tecniche avanzate di districamento, che consentono la manipolazione separata delle caratteristiche facciali dinamiche e statiche. Ciò si ottiene attraverso l’uso di codificatori distinti per diversi attributi e una serie di funzioni di perdita attentamente progettate per garantire un’efficace separazione di queste caratteristiche.

VASA-1 è stato rigorosamente testato rispetto a vari benchmark e ha dimostrato di superare significativamente i metodi esistenti in termini di realismo, sincronizzazione degli elementi audiovisivi ed espressività delle animazioni generate.

Nonostante i risultati promettenti, la ricerca riconosce alcuni limiti del modello, come l’incapacità di elaborare le dinamiche di tutto il corpo o di catturare completamente elementi non rigidi come i capelli. Tuttavia, sono previsti lavori futuri per espandere le capacità del modello e affrontare queste aree.

L’Intelligenza Artificiale (AI) per immagini e video ha rivoluzionato molti settori, tra cui il riconoscimento di oggetti, l’analisi delle immagini mediche, la sorveglianza di sicurezza, la creazione di contenuti multimediali e molto altro. Ecco alcuni esempi di come l’AI viene utilizzata per immagini e video:

Altri esempi di Modelli in allegato

Modelli-AI-RIVISTA-AI-1 Download

Newsletter AI – non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Adobe ha affermato che sta lavorando sulla tecnologia di generazione video

Di Redazione

il 12 Aprile 2024

in Business

Adobe ha iniziato a raccogliere video per sviluppare il suo generatore di testo in video basato su intelligenza artificiale, secondo quanto riportato da Bloomberg News, citando alcuni documenti.

Il colosso della tecnologia offre alla sua rete di fotografi e artisti 120 dollari per inviare video di persone che svolgono attività quotidiane come camminare o esprimere emozioni come gioia e rabbia, tra le altre cose.

Tuttavia, l’azienda avverte di non fornire materiale protetto da copyright, nudità o altri “contenuti offensivi”. L’obiettivo è ottenere risorse per addestrare l’intelligenza artificiale, aggiunge il rapporto.

Il pagamento per il contenuto ammonta in media a circa 2,62 al minuto di video inviato, anche se potrebbe arrivare fino a circa 2,62 alminuto di video inviato, anche se potrebbe arrivare fino a circa 7,25 al minuto.

Nell’ultimo anno, Adobe si è concentrata sull’aggiunta di funzionalità di intelligenza artificiale generativa al suo portafoglio di software, inclusi Photoshop e Illustrator. Secondo il rapporto, la società ha lanciato servizi che utilizzano il testo per produrre immagini e illustrazioni che finora sono state utilizzate miliardi di volte.

Adobe, sta cercando di raggiungere i rivali dopo che OpenAI ha mostrato una tecnologia simile.

OpenAI, sostenuta da Microsoft , ha dimostrato il suo modello di generazione video chiamato Sora, preoccupando gli investitori che il leader del software creativo potrebbe essere influenzato dalla nuova tecnologia.

Google, il Weizmann Institute of Science e l’Università di Tel Aviv hanno pubblicato un documento in cui viene annunciato Lumiere, un “modello di diffusione spazio-temporale” in grado di generare brevi video realistici e stilizzati, con opzioni di modifica a comando, sfruttando un modello di intelligenza artificiale generativa.

Adobe ha affermato che sta lavorando sulla tecnologia di generazione video e prevede di discuterne di più nel corso dell’anno, osserva il rapporto.

Il contenuto utilizzato per addestrare modelli linguistici di grandi dimensioni, o LLM, è diventato una questione controversa.

Il mese scorso, tre autori hanno intentato una causa contro Nvidia (NVDA) sostenendo che la società ha utilizzato i loro libri protetti da copyright senza permesso per addestrare la sua piattaforma di intelligenza artificiale NeMo.

Nel novembre 2023, la New York Times Company ha citato in giudizio Microsoft e OpenAI per violazione del copyright, sostenendo che le società hanno utilizzato illegalmente il contenuto del giornale per addestrare modelli di intelligenza artificiale.

Il mese scorso, Mira Murati, Chief Technology Officer di OpenAI, aveva dichiarato in un’intervista al Wall Street Journal di non essere sicura se Sora fosse addestrato sui video generati dagli utenti da YouTube di Google, un’unità di Alphabet e Meta Piattaforme Facebook e Instagram, secondo il rapporto.

Tuttavia, Adobe ha adottato misure per differenziare i propri modelli formandoli principalmente sulla sua libreria di supporti stock per operatori di marketing e agenzie creative.

Laddove la libreria stock non è all’altezza, la società ha procurato immagini dai contributori e ha anche offerto un compenso ai contributori per inviare una grande quantità di foto per la formazione sull’intelligenza artificiale. Questi lavori venivano pagati tra 6 e 16 centesimi per immagine, osserva il rapporto.

Adobe lancia CAVA per rivoluzionare il video editing e l’animazione dopo il debutto di Sora di OpenAI

Di Redazione

il 22 Febbraio 2024

in News

Adobe risponde ad OpenAI. Subito dopo il lancio di Sora, il nuovo modello AI per il video editing della società guidata da Sam Altman, la software house di San José ha creato una nuova organizzazione di ricerca sull’Intelligenza Artificiale composta da 50 persone, chiamata CAVA (Co-Creation for Audio, Video, & Animation).

L’obiettivo è quello di accelerare gli sforzi nella creazione di video e animazioni che fino ad ora sono stati un po’ trascurati rispetto allo sviluppo di strumenti di AI generativa per la creazione di immagini (Firefly, Photoshop Generative Fill ecc.). D’altra parte l’area DI o Digital Imaging di Adobe, responsabile del colosso Photoshop e di strumenti come Lightroom, è quella che contribuisce per la maggior parte alle entrate della società.

Adesso invece il gruppo DVA o Digital Video & Audio, che sviluppa strumenti come Premiere, After Effects e Audition, dovrebbe ricevere più attenzione e risorse, stando almeno alle dichiarazioni di Gautham Mysore, Head of Audio e Video AI Research di Adobe.

Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Sora vs DALL-E: generatore di video e di immagini a confronto

Di Redazione

il 20 Febbraio 2024

in AI

Uno degli argomenti mainstream in queste ore è indubbiamente il nuovo modello di AI generativa Sora, appena lanciato da OpenAI. Siccome il suo funzionamento è molto simile allo strumento AI di generazione di immagini DALL-E sempre realizzato da OpenAI, qualcuno ha voluto mettere a confronto i due sistemi per vedere che tipo di output restituissero.

La sfida è semplice: lo stesso prompt di testo utilizzato per creare uno dei video ad alta definizione prodotti da Sora in questa fase di test viene utilizzato per capire quale risultato mostrerà DALL-E.

Di seguito alcune simulazioni:

2. Prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit… pic.twitter.com/HzCqiLZH8g
— Alvaro Cintas (@dr_cintas) February 18, 2024

4. Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/TmqZ8Z2PYJ
— Alvaro Cintas (@dr_cintas) February 18, 2024

6. Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance,… pic.twitter.com/FN8cYmOeW2
— Alvaro Cintas (@dr_cintas) February 18, 2024

8. Prompt: A giant duck walks through the streets in Boston pic.twitter.com/qBdrKB21LH
— Alvaro Cintas (@dr_cintas) February 18, 2024

10. Prompt: A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle… pic.twitter.com/4WITB23TA9
— Alvaro Cintas (@dr_cintas) February 18, 2024

Scopri di più sulla nostra politica di embedding.

Google presenta Lumiere, l’AI generativa che crea video realistici partendo dalle singole immagini

Di Redazione

il 29 Gennaio 2024

in News

Google ha sviluppato, insieme al Weizmann Institute of Science e all’Università di Tel Aviv, un nuovo modello di intelligenza artificiale per la creazione di video a partire da foto e istruzioni testuali: si chiama Lumiere, omaggio ai fratelli inventori della macchina da presa e del proiettore cinematografico.

La novità di Lumiere IA, dal punto di vista tecnologico, sta nella qualità con cui il software riesce a ricreare lo spostamento dei soggetti all’interno del filmato grazie ad un’architettura chiamata “Space-Ti-me U-Net”, una rete spazio-temporale, che genera tutto il video in un unico passaggio, senza passare da sequenze intermedie, che presentano il rischio di possibili
incoerenze con le immagini precedenti e le successive.

Il grosso del lavoro, ça va sans dire, è svolto dall’Intelligenza Artificiale generativa che sceglie il movimento migliore dopo averne analizzati diversi, basandosi sul vasto database a cui hanno accesso i modelli di Big G, in modo tale da restituire un video plausibile.

Il modello di Lumiere è stato addestrato su un set di dati di 30 milioni di video, insieme alle relative didascalie di testo. Va precisato però che non si tratta di un software aperto al pubblico, almeno per il momento, ma solo di un progetto sperimentale di ricerca.

Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Tag: Video

Framepack e la vendetta dell’AI da salotto

Google trasforma il tuo smartphone in un oracolo AI: Gemini Live ora “vede” e risponde in tempo reale

Amazon sfida i colossi dell’AI con un nuovo modello LLM per la ricerca video, Olympus

AI Modelli per Immagini Video Vasa-1 di Microsoft: video facciale iperrealistico e sincronizzazione labiale da una singola immagine

Altri esempi di Modelli in allegato

Adobe ha affermato che sta lavorando sulla tecnologia di generazione video

Adobe lancia CAVA per rivoluzionare il video editing e l’animazione dopo il debutto di Sora di OpenAI

Sora vs DALL-E: generatore di video e di immagini a confronto

Google presenta Lumiere, l’AI generativa che crea video realistici partendo dalle singole immagini