OpenAI sta apportando modifiche al suo modello di generazione video Sora prima del rilascio, puntando a migliorare la velocità e la coerenza. Sora è un modello avanzato di intelligenza artificiale in grado di creare video realistici e coinvolgenti a partire da istruzioni testuali. Utilizza un’architettura di tipo transformer, simile a quella dei modelli GPT, e si basa su un approccio chiamato modelli di diffusione. Questo processo inizia con un video che appare come rumore statico e lo affina gradualmente, rimuovendo il rumore in più passaggi per ottenere dettagli intricati e transizioni fluide.
Sora è progettato per generare video fino a un minuto di lunghezza, mantenendo alta qualità visiva e aderenza alle istruzioni fornite dall’utente. Le sue capacità includono:
- Generazione di video da testo: Può creare sequenze video intere da zero, seguendo le istruzioni testuali.
- Estensione di video esistenti: Sora può allungare video già esistenti, aggiungendo contenuti prima o dopo il materiale originale.
- Animazione di immagini statiche: Trasforma immagini fisse in sequenze video animate.
- Creazione di loop video: Produce video che si ripetono senza interruzioni evidenti.
Nonostante le sue impressionanti capacità, Sora presenta ancora alcune limitazioni. Ad esempio:
- Simulazione fisica: Il modello può avere difficoltà a simulare accuratamente la fisica in scene complesse. Ad esempio, potrebbe non mostrare segni su un biscotto dopo che un personaggio lo morde.
- Coerenza spaziale: In alcune situazioni, Sora può confondere dettagli spaziali o generare movimenti fisicamente implausibili.
OpenAI continua a lavorare su Sora per migliorare le sue prestazioni e affrontare le sfide attuali. L’obiettivo finale è sviluppare modelli che possano comprendere e simulare il mondo reale, un passo cruciale verso il raggiungimento dell’Intelligenza Artificiale Generale (AGI).
Sora rappresenta una significativa evoluzione nella generazione video tramite intelligenza artificiale, promettendo applicazioni trasformative in vari settori e rendendo la produzione video più accessibile ed efficiente.