In un mondo sempre più dominato dalle intelligenze artificiali, una nuova e promettente alternativa si fa strada: Moshi. Annunciato dal laboratorio francese di intelligenza artificiale Kyutai, Kyutai è co-fondato da Xavier Niel, fondatore e azionista di maggioranza del gruppo Iliad, Moshi si propone come una versione avanzata e multimodale delle attuali tecnologie linguistiche, come il celebre GPT-4.

In soli 6 mesi, con un team di 8 persone, il laboratorio di ricerca Kyutai ha sviluppato da zero un modello di intelligenza artificiale (AI) con capacità vocali senza precedenti chiamato Moshi

comunicato stampa in allegato

Questa innovativa piattaforma non solo promette di rivoluzionare il modo in cui le macchine interagiscono con il mondo, ma anche di superare le attuali limitazioni dei modelli basati esclusivamente su testo. Moshi presenta ancora alcune limitazioni. Attualmente l’assistente supporta solo la lingua inglese.

Il sistema elabora direttamente l’input audio senza una fase intermedia di conversione in testo, garantendo una latenza di soli 200 millisecondi dal microfono agli altoparlanti. Questo rende l’interazione con Moshi fluida e naturale.

Una delle caratteristiche distintive di Moshi è la capacità di riconoscere e imitare fino a 70 diversi stati emozionali. L’assistente può adattare il tono di voce, sussurrare, scherzare o adottare accenti specifici su richiesta. Questa versatilità emotiva arricchisce l’esperienza di conversazione, rendendo Moshi più empatico e coinvolgente rispetto agli assistenti vocali tradizionali.

Il modello di linguaggio Moshi, chiamato Helium, ha 7 miliardi di parametri. Anche se è più piccolo rispetto a GPT-4 (175 miliardi di parametri), Helium è ottimizzato per applicazioni vocali e può funzionare localmente su laptop o computer personali. Kyutai ha anche creato una versione ridotta di Moshi che funziona su un MacBook o una GPU consumer.

L’addestramento di Moshi ha utilizzato 100.000 trascrizioni annotate con emozioni e stile. Il motore Text-to-Speech, supportando 70 emozioni e stili, è stato affinato su 20 ore di audio registrate da una doppiatrice di nome Alice. Il modello è adattabile e può essere perfezionato con meno di 30 minuti di audio aggiuntivo. Il modello demo di Moshi, su Scaleway e Hugging Face, gestisce due batch da 24 GB di VRAM. Supporta backend come CUDA, Metal e CPU, e beneficia di ottimizzazioni in Rust. Il caching KV e dei prompt migliorerà ulteriormente le prestazioni.

L’era della Multimodalità, una delle caratteristiche più sorprendenti di Moshi è la capacità di gestire due flussi audio simultaneamente, permettendo all’IA di ascoltare e parlare insieme.

Moshi non si limita alla comprensione del linguaggio scritto, ma incorpora anche la capacità di elaborare e comprendere diverse modalità di input, come immagini e suoni. Questo significa che l’AI non solo può conversare fluentemente, ma può anche interpretare e rispondere a informazioni visuali e auditive. Questa capacità multimodale rappresenta un passo significativo verso l’intelligenza artificiale “umanizzata”, capace di comprendere il mondo in modo simile agli esseri umani.

Open-Source per l’Innovazione Collettiva

Una delle caratteristiche distintive di Moshi è la sua natura open-source. Questo non solo democratizza l’accesso alla tecnologia avanzata, ma incoraggia anche la collaborazione e l’innovazione da parte di ricercatori, sviluppatori e appassionati di IA in tutto il mondo. L’apertura del codice sorgente di Moshi potrebbe portare a sviluppi rapidi e miglioramenti continui, trasformando radicalmente le capacità dell’intelligenza artificiale nel prossimo futuro.

Implicazioni per l’Industria e la Società

Le implicazioni di Moshi per diverse industrie sono immense. Settori come la salute, l’istruzione, l’automazione industriale e il commercio potrebbero beneficiare enormemente dalla capacità di Moshi di comprendere e analizzare dati complessi provenienti da diverse fonti. Ad esempio, in medicina, Moshi potrebbe rivoluzionare la diagnosi aiutando a interpretare immagini diagnostiche o sintomi espressi verbalmente dai pazienti.

In ambito educativo, Moshi potrebbe supportare gli studenti nel loro apprendimento, fornendo spiegazioni personalizzate e risposte alle domande in modo più intuitivo e efficace. Inoltre, nell’automazione industriale, l’integrazione di capacità multimodali potrebbe migliorare la precisione e l’efficienza dei processi produttivi.

Considerazioni Etiche e di Sicurezza

Tuttavia, con tali avanzamenti tecnologici, sorgono anche importanti considerazioni etiche e di sicurezza. È cruciale affrontare questioni come la privacy dei dati, l’uso responsabile dell’intelligenza artificiale e le possibili implicazioni negative che potrebbero derivare dall’adozione diffusa di tali tecnologie. Kyutai ha promesso l’importanza della Responsible AI Principles incorporando la filigrana per rilevare l’audio generato dall’IA, una funzionalità ancora in fase di sviluppo.

Il Futuro di Moshi

Moshi rappresenta un passo audace verso il futuro dell’intelligenza artificiale. Con la sua combinazione unica di capacità linguistiche e multimodali, promette di ampliare notevolmente il campo delle applicazioni dell’IA e di portare benefici significativi alla società nel suo complesso. Mentre il mondo si prepara ad abbracciare questa nuova era di intelligenza artificiale avanzata, è fondamentale adottare approcci responsabili e strategie collaborative per massimizzare i suoi benefici e mitigare i rischi associati.

In conclusione, Moshi non è solo una nuova tecnologia, ma un catalizzatore per l’innovazione e il cambiamento in una società sempre più guidata dalle macchine. Con il suo lancio, il laboratorio francese di intelligenza artificiale ha posto le basi per un futuro in cui l’interazione tra uomini e macchine sarà più profonda, significativa e trasformativa che mai.


Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale. Iscriviti alla newsletter di Rivista.AI e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!