Whisper di OpenAI è ora lo strumento principale per il riconoscimento automatico del parlato e la traduzione. Usando un’architettura Transformer, è stato addestrato su 680.000 ore di dati per funzionare su vari set di dati e domini.
Il team di ingegneri di Baseten ha segnato un’importante innovazione nell’ambito dell’intelligenza artificiale per la trascrizione audio, creando un motore di inferenza che porta Whisper a una velocità senza precedenti. Whisper, uno dei modelli open-source più avanzati sviluppati da OpenAI, è ormai diventato uno standard per chi necessita di una trascrizione automatica accurata, ma Baseten ha introdotto un’incredibile ottimizzazione, raggiungendo nuovi livelli di efficienza.
La versione ottimizzata di Whisper di Baseten è in grado di elaborare e trascrivere un’ora di contenuti audio in meno di 9 secondi. Questo tempo di elaborazione rappresenta un miglioramento significativo rispetto agli standard di velocità precedenti e garantisce un tasso di errore di parola notevolmente ridotto, posizionandosi come leader per accuratezza e costo competitivo rispetto ad altre soluzioni disponibili.
Baseten ha puntato su un’infrastruttura avanzata che consente di ottimizzare le risorse computazionali necessarie a Whisper per eseguire in modo efficace il processo di inferenza, rendendolo così una scelta ideale per aziende che richiedono affidabilità e scalabilità nelle loro soluzioni AI. È il caso di realtà come Bland AI e Patreon, che si affidano alla tecnologia di Baseten per implementazioni sicure e personalizzabili.
Newsletter – Se ti piace quello che stai leggendo e non vuoi perderti le ultime novità sul mondo dell’Intelligenza Artificiale, iscriviti alla newsletter di Rivista.AI e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!