In un’epoca dove l’AI scrive romanzi, codifica algoritmi quantistici e sforna analisi finanziarie meglio di un junior analyst dopato di caffè, ci mancava solo un’intelligenza artificiale capace di sbraitare. Nari Labs, in un mix tra follia e genialità, ha appena rilasciato Dia-1.6B, un modello text-to-speech open source da 1.6 miliardi di parametri che, a detta loro, “urla meglio di te sotto la doccia”. Letteralmente.

E no, non è una battuta: questo modellino tascabile (si fa per dire) riesce a sintetizzare risate, colpi di tosse, sospiri e urla di terrore. Non “urla” perché glielo chiedi, ma capisce quando è il momento giusto per farlo. Un passo avanti rispetto ai soliti bot che ti rispondono “Mi dispiace, non posso urlare ma posso alzare il tono” come se fossero Alexa con la tosse.

L’abilità di Dia-1.6B di generare parlato emozionale in tempo reale su una singola GPU con 10GB di VRAM lo rende una piccola bomba democratica nella guerra dei TTS. Funziona su una Nvidia A4000 a circa 40 token al secondo. Tradotto: non serve un supercomputer della NASA per farlo girare, basta una workstation decente. E soprattutto: è libero, gratuito, open source e distribuito sotto licenza Apache 2.0. Mica male, considerando che competitor come ElevenLabs e OpenAI fanno pagare anche l’aria emozionata che respiri.

Toby Kim, co-founder di Nari Labs, ha descritto l’obiettivo in modo lapidario e irresistibile: “Un obiettivo ridicolo: costruire un TTS che rivaleggia con NotebookLM Podcast, ElevenLabs Studio e Sesame CSM. In qualche modo ce l’abbiamo fatta.” E se i test comparativi hanno un minimo di valore, sembra che Dia-1.6B non solo se la cavi bene, ma riesca anche a dare un’anima (digitale) a frasi che altrimenti sarebbero solo sequenze di byte.

Il problema che affronta è tutt’altro che banale: come rendere una voce sintetica davvero umana? Perché il punto non è più suonare come un umano, ma sentire come un umano. Le AI TTS di oggi sanno scandire bene le parole, intonare una frase, magari pure sorridere mentre leggono la bolletta del gas, ma manca sempre quella sfumatura. Quel tremito, quella pausa a metà frase, quella inspirazione prima della verità. L’essenza emotiva, insomma.

Il vero limite è che le emozioni non si codificano con tag HTML tipo <happy> o :(. Richiedono contesto, ambiguità, intenzione. La maggior parte dei dataset per l’addestramento vocale sono sterili come un call center: puliti, ordinati, e assolutamente privi di tensione narrativa. E quando anche vengono annotate le emozioni, si usano etichette da cartone animato: felice, triste, arrabbiato. Benvenuti nella Disney dell’intelligenza artificiale.

E qui Dia-1.6B sembra distinguersi. Riesce a integrare elementi non verbali come risate e colpi di tosse nei momenti giusti, rispondendo a tag testuali come “(laughs)” o “(sighs)” con una fluidità che lascia spiazzati. Lo abbiamo testato: non è perfetto, ma è abbastanza bravo da ingannare per qualche secondo la tua corteccia prefrontale. E quando urla, non sembra un robot fuori controllo. Sembra qualcuno che ha davvero paura.

Nel frattempo, OpenAI prova a tenere il passo con “gpt-4o-mini-tts”, capace di personalizzare le emozioni su richiesta, tipo “voce apologetica per un bot di customer care”. Bello, utile, ma poco convincente se confrontato con il realismo grezzo e un po’ sporco di Dia. ElevenLabs, con il suo modello Multilingual v2, è ancora tra i migliori per qualità e varietà emotiva in 29 lingue, ma soffre proprio su quei dettagli non verbali che fanno la differenza tra uno speaker motivazionale e un essere umano credibile.

La verità? L’intelligenza artificiale emozionale è una barzelletta sofisticata: la recita senza capire la battuta. Gli ingegneri si sbattono tra LLM, reti neurali convoluzionali e miliardi di parametri, ma manca l’ingrediente segreto: essere vivi. Come ha detto Kaveh Vahdat, CEO di RiseAngle, “l’emozione non è solo tono o volume. È contesto, tensione, esitazione”. E i modelli di oggi, anche quelli più pompati, non hanno la più pallida idea di cosa significhi avere fretta, vergogna, passione o un nodo in gola.

Insomma, c’è ancora tanta strada da fare. Ma Dia-1.6B è un bel calcio nel sedere al conformismo del TTS. Non sarà perfetto, non sarà umano, ma almeno non suona come HAL 9000 in modalità filastrocca. E se un giorno l’AI riuscirà davvero a sentire, probabilmente sarà perché qualcuno ha avuto il coraggio di insegnarle a urlare.