In un’epoca dove l’AI scrive romanzi, codifica algoritmi quantistici e sforna analisi finanziarie meglio di un junior analyst dopato di caffè, ci mancava solo un’intelligenza artificiale capace di sbraitare. Nari Labs, in un mix tra follia e genialità, ha appena rilasciato Dia-1.6B, un modello text-to-speech open source da 1.6 miliardi di parametri che, a detta loro, “urla meglio di te sotto la doccia”. Letteralmente.
E no, non è una battuta: questo modellino tascabile (si fa per dire) riesce a sintetizzare risate, colpi di tosse, sospiri e urla di terrore. Non “urla” perché glielo chiedi, ma capisce quando è il momento giusto per farlo. Un passo avanti rispetto ai soliti bot che ti rispondono “Mi dispiace, non posso urlare ma posso alzare il tono” come se fossero Alexa con la tosse.
L’abilità di Dia-1.6B di generare parlato emozionale in tempo reale su una singola GPU con 10GB di VRAM lo rende una piccola bomba democratica nella guerra dei TTS. Funziona su una Nvidia A4000 a circa 40 token al secondo. Tradotto: non serve un supercomputer della NASA per farlo girare, basta una workstation decente. E soprattutto: è libero, gratuito, open source e distribuito sotto licenza Apache 2.0. Mica male, considerando che competitor come ElevenLabs e OpenAI fanno pagare anche l’aria emozionata che respiri.