Speech Archivi - Rivista AI

In un’epoca dove l’AI scrive romanzi, codifica algoritmi quantistici e sforna analisi finanziarie meglio di un junior analyst dopato di caffè, ci mancava solo un’intelligenza artificiale capace di sbraitare. Nari Labs, in un mix tra follia e genialità, ha appena rilasciato Dia-1.6B, un modello text-to-speech open source da 1.6 miliardi di parametri che, a detta loro, “urla meglio di te sotto la doccia”. Letteralmente.

E no, non è una battuta: questo modellino tascabile (si fa per dire) riesce a sintetizzare risate, colpi di tosse, sospiri e urla di terrore. Non “urla” perché glielo chiedi, ma capisce quando è il momento giusto per farlo. Un passo avanti rispetto ai soliti bot che ti rispondono “Mi dispiace, non posso urlare ma posso alzare il tono” come se fossero Alexa con la tosse.

L’abilità di Dia-1.6B di generare parlato emozionale in tempo reale su una singola GPU con 10GB di VRAM lo rende una piccola bomba democratica nella guerra dei TTS. Funziona su una Nvidia A4000 a circa 40 token al secondo. Tradotto: non serve un supercomputer della NASA per farlo girare, basta una workstation decente. E soprattutto: è libero, gratuito, open source e distribuito sotto licenza Apache 2.0. Mica male, considerando che competitor come ElevenLabs e OpenAI fanno pagare anche l’aria emozionata che respiri.

Whisper di OpenAI è ora lo strumento principale per il riconoscimento automatico del parlato e la traduzione. Usando un’architettura Transformer, è stato addestrato su 680.000 ore di dati per funzionare su vari set di dati e domini.

Il team di ingegneri di Baseten ha segnato un’importante innovazione nell’ambito dell’intelligenza artificiale per la trascrizione audio, creando un motore di inferenza che porta Whisper a una velocità senza precedenti. Whisper, uno dei modelli open-source più avanzati sviluppati da OpenAI, è ormai diventato uno standard per chi necessita di una trascrizione automatica accurata, ma Baseten ha introdotto un’incredibile ottimizzazione, raggiungendo nuovi livelli di efficienza.

Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Tag: Speech

La voce che urla: Dia-1.6B e la corsa all’intelligenza artificiale emozionale

Baseten porta Whisper al limite: trascrizione audio AI in 9 secondi