Mentre OpenAI continua a stuzzicare l’attesa per Sora, il suo promesso strumento di generazione video, Tencent ha preso tutti in contropiede lanciando Hunyuan Video, un modello AI open-source che ha già dimostrato di competere con le soluzioni video di punta sul mercato.

Tencent ha presentato Hunyuan Video con tempismo perfetto, proprio mentre OpenAI domina i riflettori con la sua campagna di annunci di 12 giorni. Nella dichiarazione ufficiale, Tencent descrive il suo prodotto come un modello di “fondazione video” innovativo che offre prestazioni paragonabili o addirittura superiori ai migliori modelli chiusi sul mercato, tra cui Runway Gen-3 e Luma 1.6.

Server diponibile qui.

Oltre alle semplici dichiarazioni, Tencent ha fornito dettagli tecnici che giustificano il suo entusiasmo. Il cuore di Hunyuan Video è un Decoder-Only Multimodal Large Language Model, che si discosta dai tradizionali approcci basati su CLIP e T5-XXL, utilizzati comunemente nelle piattaforme AI di generazione video e immagini. Questa architettura permette al modello di interpretare le istruzioni in modo più preciso, di cogliere dettagli complessi e di apprendere nuove capacità senza ulteriori fasi di addestramento.

Per migliorare ulteriormente la qualità delle generazioni, il sistema include un Token Refiner che riscrive automaticamente i prompt, aggiungendo ricchezza di dettagli come condizioni di luce, caratteristiche della scena e qualità visiva. Ad esempio, un semplice comando come “Un uomo che porta a spasso il cane” viene ampliato con descrizioni che includono elementi come il contesto della passeggiata, il tipo di cane e persino l’atmosfera generale.

I test iniziali mostrano che Hunyuan Video genera video di qualità fotorealistica con movimenti naturali di persone e animali, comparabili ai risultati di Dream Machine di Luma Labs o Kling AI. Tuttavia, una debolezza identificata è la capacità del modello di interpretare prompt in inglese, che risulta meno precisa rispetto a quella dei concorrenti. Questo limite, tuttavia, potrebbe essere risolto rapidamente grazie alla natura open-source del progetto, che consente ai developer di ottimizzare il modello.

Secondo Tencent, il modello raggiunge un tasso di allineamento tra prompt e output del 68,5%, mantenendo una qualità visiva del 96,4% nei test interni. Anche se non perfetti, questi risultati sono impressionanti per una soluzione gratuita e accessibile.

Simile a LLaMA 3 di Meta, Hunyuan Video è gratuito per tutti gli utenti, purché non si superino i 100 milioni di utilizzatori—un limite remoto per la maggior parte degli sviluppatori. Tuttavia, esiste una barriera hardware: il modello richiede almeno 60 GB di memoria GPU per funzionare localmente, rendendolo accessibile solo a chi dispone di macchine potenti, come quelle dotate di schede Nvidia H800 o H20.

Per chi non possiede hardware all’altezza, le alternative non mancano. Servizi cloud come FAL.ai, Replicate e GoEhnance hanno già integrato Hunyuan Video, con costi competitivi: FAL.ai addebita $0,5 per video, mentre Tencent offre 150 crediti per $10, con un consumo minimo di 15 crediti per video.

L’arrivo di Hunyuan Video si inserisce in una strategia più ampia di Tencent, che punta a democratizzare l’accesso alle tecnologie AI avanzate. Precedentemente, l’azienda aveva rilasciato HunyuanDit, un generatore di immagini che, pur ottenendo buoni risultati, non ha trovato ampia adozione. Ora, con un’intera famiglia di modelli linguistici e visivi sotto il marchio Hunyuan, Tencent mira a sfidare i giganti dell’AI su più fronti.

Il codice sorgente completo e i pesi pre-addestrati sono disponibili per il download sulle piattaforme GitHub e Hugging Face

Mentre OpenAI continua a preparare il terreno per Sora, Tencent ha già messo in campo un prodotto che risponde alle esigenze immediate di creator e sviluppatori. Con il rilascio di strumenti come Hunyuan Video, il panorama della generazione AI di contenuti visivi si sta rapidamente trasformando in un’arena sempre più accessibile, collaborativa e innovativa.