Universal-1: il modello di riconoscimento vocale più capace e addestrato di AssemblyAI

Assembly AI afferma che il suo nuovo modello Universal-1 ha il 30% in meno di allucinazioni rispetto a Whisper.

In un post sul blog, l’azienda descrive Universal-1 come “un’altra pietra miliare nella nostra missione di fornire funzionalità di sintesi vocale accurate, fedeli e robuste per più lingue, aiutando i nostri clienti e sviluppatori in tutto il mondo a creare varie applicazioni di intelligenza artificiale vocale“.

AssemblyAI ha recentemente lanciato Universal-1, il loro modello di riconoscimento vocale più capace e addestrato1. Addestrato su oltre 12,5 milioni di ore di dati audio multilingue, Universal-1 raggiunge un’accuratezza di trascrizione da voce a testo di prim’ordine, riduce il tasso di errore delle parole e le allucinazioni, migliora la stima dei timestamp e aiuta AssemblyAI a continuare a elevare l’asticella come fornitore leader di Speech AI.

Multilinguismo e Precisione
Universal-1 è addestrato su quattro lingue principali: inglese, spagnolo, francese e tedesco, e mostra un’accuratezza di trascrizione da voce a testo estremamente forte in quasi tutte le condizioni, compresi rumore di fondo pesante, discorso accentato, conversazioni naturali e cambiamenti di lingua, pur raggiungendo un rapido tempo di risposta e una migliore precisione dei timestampi.

Utilizzo Efficiente delle Risorse
La maggior parte della potenza di calcolo viene sprecata perché non tutti i token sono ugualmente difficili da prevedere. Universal-1 assegna dinamicamente il calcolo nei modelli transformer, ottimizzando l’uso delle risorse pur garantendo l’accuratezza1. Elabora selettivamente i token complessi e salta quelli più semplici, riducendo significativamente il sovraccarico computazionale.

Applicazioni di Universal-1
Con Universal-1, AssemblyAI ha cercato di costruire sulle prestazioni leader del settore dei suoi modelli precedenti, e ha progettato questo nuovo modello guidato dall’idea che l’accuratezza di ogni parola conta. I clienti che utilizzano i modelli di Speech AI di AssemblyAI hanno costruito prodotti che possono riassumere videochiamate con note chiare e punti di azione, automatizzare esperienze di servizio clienti e aiutare le organizzazioni a comprendere la voce dei loro clienti con intuizioni da ogni interazione con il cliente.

In conclusione, Universal-1 è un passo avanti significativo nel campo del riconoscimento vocale. Con la sua capacità di gestire dinamicamente il calcolo e la sua formazione su un vasto set di dati multilingue, Universal-1 si pone come un modello di riconoscimento vocale leader nel settore, aprendo la strada a nuove possibilità nel campo dell’Intelligenza Artificiale.

Newsletter AI – non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Universal-1: il modello di riconoscimento vocale più capace e addestrato di AssemblyAI

Lascia un commento

Universal-1: il modello di riconoscimento vocale più capace e addestrato di AssemblyAI

Google DeepMind ha recentemente presentato Mixture-of-Depths (MoD), un metodo che aumenta la velocità di elaborazione fino al 50%

L’Industria dell’Intelligenza Artificiale: un investimento costoso ma necessario

Lascia un commento