Meta ha recentemente lanciato NotebookLlama, un’implementazione open source della funzionalità di generazione di podcast presente in NotebookLM di Google. Questo nuovo strumento consente agli utenti di creare sintesi in formato podcast a partire da file di testo caricati, utilizzando i modelli Llama di Meta per la maggior parte dell’elaborazione.
La procedura di NotebookLlama prevede diversi passaggi:
- Trascrizione: Il sistema genera una trascrizione del file caricato, che può essere un PDF o un articolo di blog.
- Drammatizzazione: Aggiunge elementi di drammatizzazione e pause strategiche.
- Generazione audio: La trascrizione viene poi inviata a modelli text-to-speech open source per creare l’audio finale.
Tuttavia, la qualità audio attuale non raggiunge quella di NotebookLM. Le voci generate tendono ad avere un tono robotico e a sovrapporsi in momenti inaspettati. I ricercatori di Meta riconoscono che ci sono margini di miglioramento e suggeriscono che l’uso di modelli più avanzati potrebbe migliorare la naturalezza del suono.
NotebookLlama non è il primo tentativo di replicare le funzionalità di NotebookLM; ci sono stati altri progetti con risultati variabili. Un problema comune è quello delle “allucinazioni” nei contenuti generati dall’IA, che possono portare a informazioni inaccurate. Nonostante ciò, la nuova iniziativa di Meta offre agli sviluppatori e agli utenti un’opzione open source per esplorare e migliorare la tecnologia della generazione automatica di podcast.