Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Tag: immagini

AI Modelli per Immagini Video Vasa-1 di Microsoft: video facciale iperrealistico e sincronizzazione labiale da una singola immagine

Microsoft ha recentemente introdotto VASA-1, un modello di intelligenza artificiale che produce video realistici di volti parlanti da una singola immagine statica e una clip audio.

Il modello è in grado di produrre video con una risoluzione di 512×512 pixel e una frequenza di 40 fotogrammi al secondo (FPS), con una latenza di soli 170 millisecondi sui sistemi GPU NVIDIA RTX 4090.

L’architettura del modello si basa su un approccio di diffusione.

A differenza dei metodi tradizionali che trattano le caratteristiche facciali separatamente, VASA-1 utilizza un modello basato sulla diffusione per generare dinamiche facciali e movimenti della testa in modo olistico. Questo metodo considera tutte le dinamiche facciali, come il movimento delle labbra, l’espressione e i movimenti degli occhi, come parti di un unico modello completo.

VASA-1 opera all’interno di uno spazio latente del viso districato ed espressivo, che gli permette di controllare e modificare le dinamiche facciali e i movimenti della testa indipendentemente da altri attributi facciali come l’identità o l’aspetto statico.

Il modello è stato addestrato su un set di dati ampio e diversificato, che gli consente di gestire un’ampia gamma di identità facciali, espressioni e modelli di movimento. Questo approccio di addestramento aiuta il modello a funzionare bene anche con dati di input che si discostano da ciò su cui è stato addestrato, come input audio non standard o immagini artistiche.

L’addestramento del modello prevede tecniche avanzate di districamento, che consentono la manipolazione separata delle caratteristiche facciali dinamiche e statiche. Ciò si ottiene attraverso l’uso di codificatori distinti per diversi attributi e una serie di funzioni di perdita attentamente progettate per garantire un’efficace separazione di queste caratteristiche.

VASA-1 è stato rigorosamente testato rispetto a vari benchmark e ha dimostrato di superare significativamente i metodi esistenti in termini di realismo, sincronizzazione degli elementi audiovisivi ed espressività delle animazioni generate.

Nonostante i risultati promettenti, la ricerca riconosce alcuni limiti del modello, come l’incapacità di elaborare le dinamiche di tutto il corpo o di catturare completamente elementi non rigidi come i capelli. Tuttavia, sono previsti lavori futuri per espandere le capacità del modello e affrontare queste aree.

L’Intelligenza Artificiale (AI) per immagini e video ha rivoluzionato molti settori, tra cui il riconoscimento di oggetti, l’analisi delle immagini mediche, la sorveglianza di sicurezza, la creazione di contenuti multimediali e molto altro. Ecco alcuni esempi di come l’AI viene utilizzata per immagini e video:

Altri esempi di Modelli in allegato


Newsletter AI – non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Sora vs DALL-E: generatore di video e di immagini a confronto

Uno degli argomenti mainstream in queste ore è indubbiamente il nuovo modello di AI generativa Sora, appena lanciato da OpenAI. Siccome il suo funzionamento è molto simile allo strumento AI di generazione di immagini DALL-E sempre realizzato da OpenAI, qualcuno ha voluto mettere a confronto i due sistemi per vedere che tipo di output restituissero.

La sfida è semplice: lo stesso prompt di testo utilizzato per creare uno dei video ad alta definizione prodotti da Sora in questa fase di test viene utilizzato per capire quale risultato mostrerà DALL-E.

Di seguito alcune simulazioni:

Scopri di più sulla nostra politica di embedding.

Dall-E, Midjourney e Adobe Firefly a confronto

L’avvento dell’Intelligenza Artificiale generativa ha rivoluzionato il modo in cui concepiamo e creiamo immagini. Attraverso modelli avanzati, come DALL-E, Midjourney e Adobe Firefly, l’AI sta dando vita a nuove possibilità nell’ambito della produzione visiva.

Midjourney: un viaggio nel mondo dell’Intelligenza Artificiale generativa per la creazione di immagini

Midjourney, uno dei pionieri nell’ambito della creazione di immagini da testo, ha dimostrato progressi costanti nelle versioni successive. Tuttavia, l’accesso gratuito a questa potente risorsa è stato recentemente interrotto dagli sviluppatori, suscitando domande sulla disponibilità di alternative altrettanto valide. Fortunatamente, il panorama offre numerose alternative competitive, superando non solo in capacità di creazione, ma anche in personalizzazione e accessibilità dell’interfaccia.

DALL-E: un passo avanti nell’universo dell’immagine

DALL-E, sviluppato da OpenAI (la stessa azienda dietro ChatGPT), emerge come una delle alternative più interessanti a Midjourney. Questo generatore di immagini si distingue per la sua abilità nella creazione di immagini fotorealistiche, benché richieda una maggiore precisione nell’inserimento del testo di partenza, rispetto al suo predecessore.

Il punto forte di DALL-E è la sua capacità di mescolare concetti, qualità e stili, consentendo la creazione di immagini uniche. Dagli ampliamenti delle immagini alla manipolazione dei colori e degli stili degli elementi, questo strumento offre un’ampia gamma di possibilità, sebbene richieda un impegno più approfondito.

Adobe Firefly: l’ambiziosa incursione di Adobe nel mondo dell’Intelligenza Artificiale

Adobe Firefly rappresenta l’audace ingresso di Adobe nel dominio della generazione di contenuti attraverso modelli IA, integrato persino in Google Bard per la creazione di immagini. Questo progetto ambizioso offre un set di funzioni impressionanti, tra cui la creazione d’immagini da testo, l’upscale delle immagini, la ricolorazione vettoriale, effetti di testo, l’inpainting, lo sketch-to-image, e altro ancora.

Attualmente in fase beta, alcune funzioni di Adobe Firefly sono ancora in sviluppo. Per utilizzarlo, basta accedere al sito di Adobe Firefly con il proprio account Adobe, seguire il tutorial e approvare i termini di utilizzo. Inserendo un prompt di testo in inglese, si possono generare immagini in diverse varianti, selezionando il tipo di contenuto desiderato: arte, grafica, foto.

L’intelligenza generativa sta apportando cambiamenti rivoluzionari nel modo in cui concepiamo e creiamo immagini, e con opzioni come DALL-E, Midjourney e Adobe Firefly, si prospetta un futuro affascinante nell’evoluzione dell’arte visiva.

Secondo un’analisi condotta da un’esperto di intelligenza artificiale, Chase Lean, messe a confronto le tre applicazioni, Firefly 2 genera foto più realistiche rispetto a Midjourney e DALL-E. Eccelle anche nelle riprese di prodotti, nel design di interni, nella generazione di testi e nelle foto di animali selvatici, mentre Midjourney ha prodotto foto di paesaggi di qualità superiore con un’illuminazione più suggestiva.

Vediamo le sue simulazioni.

Credit: Chase Lean
Credit: Chase Lean

Credit: Chase Lean

Credit: Chase Lean

Credit: Chase Lean

Credit: Chase Lean

Dall-E, Midjourney e Adobe Firefly: creare immagini con l’Intelligenza Artificiale

La generazione di immagini tramite Intelligenza Artificiale sta rivoluzionando il mondo del design grafico e dell’arte digitale. Midjourney è stato uno dei pionieri in questo campo ed è indubbiamente una delle AI generative di immagini più popolari in assoluto.

Tuttavia la concorrenza sta crescendo rapidamente non solo per quanto riguarda la capacità di creazione, ma anche le possibilità di personalizzazione e l’interfaccia di accesso. 

Proviamo a capire le differenze (se ci sono), tra Midjourney, Dall-E e Adobe Firefly mettendole a confronto in 10 prompt.

Stessi prompt, diversi output.

Qual è il vostro preferito?

1)

2)

3)

4)

5)

6)

7)

8)

9)

10)

Midjourney, la versione V6 disponibile in alpha test

Midjourney ha rilasciato la versione V6 anche se non si tratta di un rilascio definitivo ma di una versione alpha messa a disposizione della community affinché gli utenti possano testarla.

Diversi i miglioramenti introdotti dal nuovo modello che ora è in grado di seguire i prompt in modo molto più preciso, inclusi prompt più lunghi, la possibilità di specificare colori e altri dettagli in un’immagine, la composizione controllata utilizzando il linguaggio naturale, l’aggiunta di testo, una migliore comprensione delle sfumature grammaticali e la possibilità di aggiungere cornici e bordi alle immagini tramite testo descrittivo. Anche gli upscaler sono stati migliorati, per un incremento di 2 volte della risoluzione.

Midjourney V6 però è molto diverso da quello della versione V5 e sarà quindi necessario imparare di nuovo il modo in cui comporre i prompt di richiesta.

In ogni caso, la versione V6, il terzo modello di Midjourney addestrato da zero sui supercluster AI del research lab in lavorazione da 9 mesi, è in grado di generare immagini molto più realistiche della versione più recente, v5.2

Il sito di fotografia PetaPixel ha provato a mettere a confronto i risultati delle due versioni.

1° Prompt: “Albert Einstein che fa un esperimento scientifico”

Midjourney 5.2

Midjourney v6

2° Prompt: “Un ritratto di Marie Curie nel suo laboratorio”

Midjourney 5.2
Midjourney v6

I risultati della v6 sono spettacolari, con un’enorme quantità di dettagli in ogni immagine e una luce eccellente. Pur riconoscendo che i risultati della versione 5.2 non sono negativi, è indubbio che la complessità delle scene nella v6 è davvero impressionante.

La community sta ovviamente testando le nuove funzionalità, sopratutto per quel che riguarda l’inserimento di testo all’interno delle immagini, una funzionalità generalmente ritenuta più debole sulla versione precedente.

Intelligenza Artificiale e creazione di immagini

I programmi di Intelligenza Artificiale hanno ormai raggiunto livelli incredibili nella creazione delle immagini. L’IA generativa consente infatti la la creazione di immagini, disegni e illustrazioni ad alta definizione utilizzando descrizioni testuali. È infatti sufficiente scrivere una parola chiave o un testo e l’algoritmo crea un’immagine personalizzata che rappresenta il concetto espresso. L’utente ha la possibilità di specificare lo stile, il colore, la prospettiva e altri dettagli per personalizzare la sua immagine.

Alcuni sistemi, come Midjourney, usano la Generative Adversarial Network (GAN), una rete neurale composta da due moduli chiamati generatore e discriminatore. Il primo è adibito alla produzione delle immagini dal testo, mentre il secondo valuta se le immagini sono realistiche. L’interazione tra i due moduli porta al miglioramento delle prestazioni per la produzione di immagini sempre più precise.

Dall’editing fotografico avanzato alle soluzioni di generazione di immagini, l’IA offre nuove prospettive creative per artisti, designer e creatori di contenuti, consentendo il miglioramento automatico delle immagini, dalla correzione del colore alla rimozione di imperfezioni, offrendo risultati sorprendenti e creando al tempo stesso un’esperienza visiva altamente personalizzata.

Tuttavia, con il potenziale innovativo possono anche emergere anche dei rischi significativi come la manipolazione dell’identità, perché l’IA rende possibile la creazione di foto fake realistiche di personaggi famosi, come è successo all’ex Presidente degli Stati Uniti Donald Trump o anche a Papa Francesco, sollevando preoccupazioni sulla manipolazione dell’identità e la diffusione di informazioni false.

I rischi di abuso possono riguardare, oltre all’eventuale creazione di supporti visivi a supporto delle fake news, anche la sfera reputazionale dei singoli cittadini, mettendone a rischio la privacy, fino a raggiungere quel confine dove la capacità delle società in generale di distingue la differenza tra realtà e finzione assume dei contorni sfocati. E, da questo punto di vista, i rischi possono essere significativi quando si tratta di personaggi famosi o di personalità di primo piano.

Affrontare le straordinarie opportunità offerte dall’IA nella creazione di immagini richiede un approccio bilanciato in grado di combinare l’innovazione tecnologica con un utilizzo non tanto regolamentato quanto etico per garantire che l’IA contribuisca positivamente al nostro mondo visivo senza compromettere verità, integrità e dignità della persona.

CC BY-NC-SA 4.0 DEED | Disclaimer Contenuti | Informativa Privacy | Informativa sui Cookie