OpenAI ha sganciato la sua ultima bomba tecnologica: Sora, il modello di IA per la creazione di video a partire da testo, lanciato ufficialmente lunedì come parte della maratona di 12 giorni di annunci chiamata “Ship-mas”. Sora è disponibile ora su Sora.com per gli abbonati di ChatGPT negli Stati Uniti e in “molti altri Paesi”. La novità? Un modello aggiornato chiamato Sora Turbo, che eleva ulteriormente le potenzialità di questa tecnologia, permettendo di creare video da testo, animare immagini e remixare clip esistenti.
Tag: sora
OpenAI ha introdotto “Sora,” il suo innovativo modello AI di testo a video, a febbraio, ma da allora le informazioni sullo sviluppo e il rilascio del prodotto sono state scarse. Tuttavia, recenti controversie potrebbero portare nuova luce sul progetto. Un gruppo di artisti beta tester ha presumibilmente reso pubblico l’accesso al modello per protestare contro quello che definiscono sfruttamento non retribuito per ricerca e sviluppo (R&D) e pubbliche relazioni (PR).
OpenAI sta apportando modifiche al suo modello di generazione video Sora prima del rilascio, puntando a migliorare la velocità e la coerenza. Sora è un modello avanzato di intelligenza artificiale in grado di creare video realistici e coinvolgenti a partire da istruzioni testuali. Utilizza un’architettura di tipo transformer, simile a quella dei modelli GPT, e si basa su un approccio chiamato modelli di diffusione. Questo processo inizia con un video che appare come rumore statico e lo affina gradualmente, rimuovendo il rumore in più passaggi per ottenere dettagli intricati e transizioni fluide.
Il gruppo cinese annuncia che “Vidu“, un concorrente di Sora di OpenAI, crea un video 1080p lungo 16 secondi. L’architettura del modello sembra essere basata su U-ViT , qui il profilo Google Scholar del direttore scientifico che ha guidato questo progetto.
La citazione dal comunicato stampa:
Since the release of Sora, the battle for "domestic Sora" has begun. But when the industry focuses on the "long" feature, they all ignore that behind Sora is actually the improvement of comprehensive effects, such as consistency, realism, aesthetics, etc. in long time series.
From the perspective of comprehensive effects, "Vidu" is the first and only video model to fully benchmark against Sora at the effect level, not only domestically, but also globally. It is also the first video model to achieve a breakthrough after Sora.
Il nuovo modello cinese non è liberamente accessibile solo tramite un collegamento, tuttavia chiunque sia interessato può richiedere un contributo per l’accesso al nuovo modello AI video. Segui il collegamento: https://www.shengshu-ai.com/home
Iscriviti alla nostra newsletter settimanale per non perdere le ultime notizie sull’Intelligenza Artificiale.
OpenAI ha lanciato il nuovo text-to-video model “Sora” un mese fa.
Sora si pone come il nuovo protagonista nel panorama dell’intelligenza artificiale con il suo rivoluzionario generatore di video basato su testo, sviluppato da OpenAI. Grazie a Sora, gli utenti possono trasformare semplici messaggi di testo in coinvolgenti video, aprendo nuove frontiere nell’ambito della creatività digitale.
I video campione di Sora rilasciati da OpenAI sono ad alta definizione e ricchi di dettagli. OpenAI afferma che può generare video fino a un minuto di durata.
OpenAI sostiene anche che Sora gestisce bene l’occlusione. Un problema con i modelli esistenti è che possono perdere traccia degli oggetti quando questi scompaiono dalla vista.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field”.
Sebbene possa sembrare simile ai suoi predecessori, come DALL-E o Firefly, celebri per la loro abilità di trasformare testo in immagini, Sora si distingue per la sua capacità di creare video dinamici arricchiti da interazioni e rendering in 3D. Un’esperienza visiva che cattura l’attenzione e lascia un’impressione indelebile in chiunque ne sia testimone.
Sora incarna il prossimo capitolo nell’evoluzione dell’Intelligenza Artificiale generativa, consentendo a individui di qualsiasi livello di esperienza di esplorare nuovi orizzonti nella creazione di contenuti digitali. Con i suoi risultati straordinari, Sora si afferma come una pietra miliare in questa continua tendenza, aprendo le porte a un universo di possibilità creative senza precedenti.
Il recente lancio di “Sora” da parte di OpenAI ha scosso il mercato, suscitando preoccupazioni tra varie aziende, tra cui studi cinematografici, agenzie pubblicitarie e strumenti di editing. In particolare, Adobe, rinomata nel settore degli strumenti di editing, si trova ad affrontare una serie di sfide che meritano attenzione.
In primo luogo, emerge una crescente incertezza sul futuro. L’avvento dell’intelligenza artificiale ha abbattuto le barriere nella creazione di contenuti, ponendo interrogativi sul ruolo predominante di alcune aziende nel settore creativo nei prossimi anni tra cui ad esempio il colosso Adobe. L’impiego sempre più diffuso dell’IA, specialmente nella generazione di contenuti, potrebbe influenzare anche la fase di editing, cruciale per le entrate di Adobe.
Questo scenario solleva dubbi sulla stabilità occupazionale, poiché l’automatizzazione guidata dall’IA potrebbe portare a una maggiore produttività e, di conseguenza, a una riduzione della domanda di manodopera.
Ad esempio, il management di Adobe ha suggerito un possibile approccio di monetizzazione basato sull’utilizzo dell’IA, tramite crediti di utilizzo. Questa strategia potrebbe mitigare gli effetti negativi sulla domanda di posti di lavoro, ma la sua efficacia rimane da verificare.
Un secondo problema potenziale riguarda la distribuzione. Mentre alcuni temevano che l’IA avrebbe rivoluzionato completamente il settore del software, è fondamentale considerare l’importanza della distribuzione. Sebbene l’IA possa apportare cambiamenti significativi, la sua adozione su larga scala dipende da una serie di fattori, compresa la facilità di accesso e l’infrastruttura necessaria.
Le aziende devono affrontare le sfide derivanti da questa nuova era. La capacità di adattamento e l’innovazione strategica saranno fondamentali per mantenere una posizione di leadership in un ambiente in continua evoluzione.
Sebbene l’ecosistema delle startup dell’intelligenza artificiale possa generare una concorrenza serrata, la capacità di distribuzione rimane un fattore determinante per il successo. Anche se un’azienda sviluppa il modello più avanzato di intelligenza artificiale, senza un efficace canale di distribuzione rischia di non ottenere una diffusione ampia sul mercato. Questo è il motivo per cui, nonostante la competizione con le grandi società consolidate, come Microsoft Corporation, le startup dell’AI devono porre particolare attenzione alla distribuzione.
OpenAI, ad esempio, ha stabilito un legame strategico con Microsoft, uno dei principali attori nel panorama del software aziendale. Questa partnership non solo conferisce a OpenAI un’identità come startup nell’ambito dell’intelligenza artificiale, ma le offre anche un canale di distribuzione di vasta portata. Grazie a questa collaborazione, OpenAI può accedere a un pubblico più ampio e ottenere una rapida adozione dei suoi prodotti e servizi nell’ecosistema aziendale.
Non male per una società nemmeno quotata.
L’incertezza sul futuro è oggi più tangibile che mai. L’ascesa dell’intelligenza artificiale sta esercitando pressioni significative sul panorama lavorativo, e OpenAI non può essere sottovalutata come una mera “startup AI senza distribuzione”.
Comunque, è improbabile che l’intelligenza artificiale generativa possa fornire risultati finali all’altezza delle aspettative della creatività. Modelli come Sora potrebbero generare video basati su testo, ma è poco probabile che questi corrispondano esattamente alle visioni creative degli artisti. Questa discrepanza potrebbe essere accettabile per l’utente medio, ma difficilmente sarà soddisfacente per i professionisti del settore.
Ciò significa che gli strumenti creativi tradizionali continueranno probabilmente a essere rilevanti, poiché l’intelligenza artificiale risolverà solo una parte del processo creativo. Questo fenomeno è già evidente nell’ambito delle immagini generate dall’IA e è probabile che si ripeta anche nel caso dei video, considerando la complessità e la ricchezza di questo formato.
Ad esempio quando OpenAI ha introdotto DALL-E, si temeva che avrebbe rivoluzionato completamente il settore, ma Adobe ha risposto prontamente integrando la tecnologia nella sua suite creativa con il lancio di Firefly. Questa flessibilità e capacità di innovazione suggeriscono che anche nel caso di Sora, Adobe potrebbe trovare un modo per capitalizzare sull’intelligenza artificiale generativa, mantenendo la sua posizione dominante nel settore.
Sora potrebbe subire una “commoditizzazione” simile a quella riscontrata con DALL-E.
L’intelligenza artificiale generativa sta abbassando le barriere di accesso all’industria creativa, con vantaggi e svantaggi. Se da un lato i costi di ingresso sono ridotti, dall’altro il rischio di una contrazione del divario competitivo è presente. Tuttavia, si apre anche la possibilità di un notevole ampliamento del bacino di utenza, sebbene una parte di esso potrebbe non essere facilmente monetizzabile. In questo contesto, le strategie di pricing di le offerte di intelligenza artificiale sarà fondamentale nel valutare l’opportunità di monetizzazione degli attuali players.
I clienti mostrano un interesse non solo per la fase generativa, ma per l’intera catena del valore.
Possiamo ritenere che l’intelligenza artificiale possa non solo aumentare la produttività, ma anche espandere il bacino di utenza, poiché le aziende si impegnano sempre più nella creazione di contenuti. Questa visione è supportata dai dati e dalle ricerche condotte tra la clientela, che mostrano un crescente coinvolgimento e una maggiore percezione del valore derivante dall’utilizzo delle nuove tecnologie.
Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!
In un’intervista al Wall Street Journal, Mira Murati, Chief Technology Officer di OpenAI, ha confermato che Sora, il suo modello di Intelligenza Artificiale generativa che crea video da istruzioni di testo e da immagini fisse, sarà disponibile entro la fine dell’anno.
Nei giorni scorsi, il Garante per la privacy italiano ha avviato un’istruttoria per capire come OpenAI addestra l’algoritmo di Sora, quali dati degli utenti raccoglie ed elabora e se e quali fonti esterne vengono utilizzate per generare i video.
Murati ha riferito che il software potrà creare non solo filmati ma anche la parte sonora, almeno in un aggiornamento successivo del modello, rendendo il risultato qualcosa di molto vicino ad un’opera cinematografica.
Per salvaguardare la trasparenza dei contenuti, i video dovrebbero contenere anche metadati ed etichette in grado di far capire agli utenti quando ciò che stanno guardando è vero o frutto di un’elaborazione effettuata con tool di AI.
“Considerando la possibilità di creare disinformazione” afferma Murati “siamo impegnati a prendere tutte le giuste misure preventive prima di un rilascio pubblico di Sora, anche in vista delle elezioni presidenziali di novembre“. Anche se Sora è molto più costoso da gestire rispetto ad altri modelli di Intelligenza Artificiale, OpenAI punta a renderlo disponibile a tariffe simili a Chat GPT o a Dall-e, l’AI che crea immagini statiche da testo.
Uno degli argomenti mainstream in queste ore è indubbiamente il nuovo modello di AI generativa Sora, appena lanciato da OpenAI. Siccome il suo funzionamento è molto simile allo strumento AI di generazione di immagini DALL-E sempre realizzato da OpenAI, qualcuno ha voluto mettere a confronto i due sistemi per vedere che tipo di output restituissero.
La sfida è semplice: lo stesso prompt di testo utilizzato per creare uno dei video ad alta definizione prodotti da Sora in questa fase di test viene utilizzato per capire quale risultato mostrerà DALL-E.
Di seguito alcune simulazioni:
Scopri di più sulla nostra politica di embedding.
Sora è il nuovo generatore di text-to-video di OpenAI. Lo strumento, presentato giovedì scorso dall’azienda con sede a San Francisco, utilizza l’intelligenza artificiale generativa per creare istantaneamente brevi video basati su comandi scritti.
Sora non è il primo a lanciare questo tipo di tecnologia, dove sono già presenti realtà come Runway, Stable Video Diffusion, Pika e più recentemente Google con Lumiere. Tuttavia se andiamo ad analizzare i commenti dei vari esperti del settore rileviamo che sono tutti unanimi nel sottolineare l’alta qualità dei video realizzati finora e che l’introduzione di questa nuova App segni un passo avanti significativo sia per OpenAI che per il futuro della generazione di testo in video in generale.
Nel dettaglio Sora è un generatore di testo in video che crea video lunghi fino a 60 secondi in base a istruzioni scritte utilizzando l’Intelligenza Artificiale generativa. Il modello può anche generare video da un’immagine fissa esistente, tuttavia non è ancora disponibile per l’uso pubblico (OpenAI afferma che sta collaborando con politici e artisti prima di rilasciare ufficialmente lo strumento) e ci sono ancora molte cose che non sappiamo. Ma dall’annuncio di giovedì, la società ha condiviso una serie di esempi di video generati da Sora per mostrare cosa può fare e i risultati sembrano davvero impressionanti.
Contestualmente al rilascio, OpenAI ha dichiarato di essere consapevole che Sora potrebbe essere usata per produrre deepfake e disinformazione, specificando che l’azienda sta lavorando con i cosidetti “red teamer” esperti in aree come disinformazione, contenuti che incitano all’odio e pregiudizi, che testeranno il modello in modo contraddittorio, al fine di rilevare eventuali possibilità di rilevare contenuti fuorvianti. Immaginiamo quindi che non sarà possibile creare contenuti violenti o pornografici, né tantomeno riprodurre le fattezze di persone reali o lo stile di artisti famosi, come peraltro già succede per il suo generatore di immagini, Dall-E.
In ogni caso questo ulteriore passaggio evolutivo dell’AI generativa pone in capo a OpenAI una ulteriore responsabilità, non solo sul più vasto tema delle fake news che è possibile generare grazie a questi modelli ma anche dal punto di vista di eventuali problemi legati al diritto d’autore dei dati di addestramento per i quali OpenAI è già stata citata in giudizio da attori come il New York Times.