L’intelligenza artificiale (IA) sta subendo un’evoluzione rapida e costante, con progressi che ci avvicinano sempre di più all’Intelligenza Artificiale Generale (AGI), un concetto che descrive un’IA in grado di comprendere, apprendere e svolgere compiti in modo simile all’intelligenza umana.

Un esempio all’avanguardia di questi progressi è il modello GPT-4 di OpenAI, che rappresenta un significativo avanzamento rispetto ai suoi predecessori, come GPT-3 e GPT-3.5.

La sofisticazione di GPT-4 si basa non solo sull’aumento delle capacità computazionali, ma anche sull’integrazione di tecniche avanzate di machine learning come forse il Mixture of Experts (MoE), una metodologia che potrebbe avere implicazioni fondamentali nello sviluppo dell’IA.

Attualmente, ChatGPT non è basato sull’architettura “Mixture of Experts” (MoE). Invece, ChatGPT è costruito su una variante di architettura Transformer, in particolare il modello GPT (Generative Pre-trained Transformer).

Non esistono attualmente informazioni su cosa sia e come sia fatto ChatGPT01

Ma qualcuno avanza dubbi,  un mix di esperti con 8 GPT-3-220b?

OpenAI di solito investe il 50% delle sue risorse di calcolo nel suo progetto principale, che si dice necessiti di 25.000 GPU. Nel 2022, i più grandi cluster di Microsoft avevano circa 6.000 GPU ciascuno. Quindi, utilizzare 8 cluster paralleli da 6.000 GPU e poi un insieme finale leggero potrebbe sembrare una buona strategia.

Il concetto di Mixture of Experts è centrale nella speculazione riguardante la struttura di GPT-4. In generale, un sistema MoE prevede la presenza di numerosi modelli specializzati, chiamati “esperti”, ciascuno addestrato per gestire specifiche porzioni del problema o dello spazio dei dati. In questo contesto, un modello di controllo seleziona in modo dinamico quale esperto o gruppo di esperti consultare per risolvere un determinato compito. Questo approccio consente di gestire in modo efficiente grandi quantità di dati e di aumentare la precisione, utilizzando risorse computazionali in maniera ottimale.

Nel caso di GPT-4, si ritiene che il modello contenga fino a 16 esperti, ciascuno con circa 111 miliardi di parametri. Questa struttura rappresenta un netto aumento rispetto a GPT-3, che contava 175 miliardi di parametri complessivi, ma distribuiti in un unico modello anziché in moduli specializzati. Si ipotizza che questo aumento dei parametri sia correlato a una maggiore efficienza computazionale e precisione nella risoluzione di compiti specifici. L’approccio MoE permette di selezionare e combinare dinamicamente i contributi degli esperti, aumentando le capacità di GPT-4 in maniera significativa.

Non sono un appassionato dei MoE, quindi questa potrebbe essere una sorpresa o una delusione per me. Innanzitutto, mi sorprenderebbe se l’assemblaggio di 8 modelli esperti, solo leggermente più grandi del vecchio GPT-3-175b, potesse creare un grande divario di prestazioni tra GPT-3 e GPT-4. Forse ha più senso pensare ai miglioramenti derivanti dal ridimensionamento in stile Chinchilla a 220 miliardi di parametri su domini specifici come la programmazione. In particolare, GPT-4 sembra possedere ancora quella “scintilla” che i benchmark spesso non catturano, cosa che i MoE in genere non mostrano. Nessuno parla mai di MoE facendo cose davvero sorprendenti o mostrando emergenze.

In secondo luogo, mi deluderebbe se, dopo tutto questo tempo, gli sforzi di OpenAI per aumentare la scalabilità sui modelli densi fossero falliti e questa fosse la migliore architettura possibile. Sarebbe una prova forte che la scalabilità potrebbe fermarsi presto, poiché i MoE non sembrano generalizzare e apprendere in modo flessibile come un modello denso. È difficile immaginare come i MoE possano superare i loro esperti densi senza sostanziali miglioramenti per farli sembrare più simili a un modello denso monolitico ma molto sparso.

Inoltre, se si combinano queste considerazioni con le affermazioni che la “salsa segreta” di GPT-4 sia solo un maggiore investimento in dati per addestrare i 8 esperti di dominio separati, non è sostenibile farlo per ogni dominio o aumentare tali acquisti in modo significativo. Tutto questo mi sembra poco chiaro e, se questa voce è vera, la descrizione qui non ha molto senso, nemmeno dal punto di vista dell’efficacia dei MoE. Sospetto che manchino alcuni pezzi del puzzle.

Anche se non definiresti l’auto-attenzione “un mix di esperti”, è comunque una modalità di instradamento flessibile di calcoli e dati. Alcuni argomenti anti-scalabilità sostengono che “la scalabilità ha raggiunto un vicolo cieco”. Tuttavia, queste affermazioni sarebbero state applicabili anche nel 2017, quando fu pubblicato il documento sui Transformers; eppure, eccoci qui.

Inoltre, è sconcertante il numero 220 miliardi: non c’è una barriera particolare a questo numero, e sappiamo che è possibile addestrare modelli in stile GPT fino a dimensioni almeno tre volte maggiori senza sforzi straordinari, come dimostrato da Nvidia e Google con PaLM-1 a 540 miliardi di parametri. Quindi, non può essere un problema di divergenza o instabilità.

intervistatore qui. Mi dispiace di non essere stato all’altezza delle aspettative. Abbiamo appena iniziato il pod a febbraio e ho sicuramente molta strada da fare. Suggerimenti costruttivi per migliorare, per favore?
Inoltre, per quel che vale, ero ben consapevole che George stava per lo più ripetendo informazioni di seconda mano. Ecco perché non l’ho incalzato ulteriormente sui dettagli del GPT-4 come ho fatto per le altre sue cose tinycorp.
 Ecco una nuova visualizzazione del GPT-4 come 1.76T MoE rispetto ad altri modelli allineati a Chinchilla.

Addestrano semplicemente lo stesso modello otto volte, e poi hanno un piccolo trucco. In realtà fanno 16 inferenze, ma no, non è come- [00:43:45]

Questo concetto è stato esposto anche da Adrij Karpathy in un podcast l’anno scorso, dove ha suggerito che l’evoluzione successiva a GPT-3 sarebbe stata un “consiglio di GPT”.

Quello che non capisco è perché proprio 8 “esperti”. Forse è un’interpretazione troppo letterale? Faccio fatica a immaginare 8 categorie significative che rappresentino le capacità di GPT-4.
In realtà, potrebbe avere molto senso. Perché Altman dovrebbe insistere così tanto sul costo elevato di inferenza, se non fosse che ogni inferenza è composta da 8 inferenze separate?

Ottimizzazione degli Esperti e Diversificazione dei Compiti

La diversificazione degli esperti permette a GPT-4 di affrontare una gamma incredibilmente ampia di attività, migliorando la capacità del modello di adattarsi a contesti specifici. Questo potrebbe essere il punto chiave che distingue GPT-4 dai modelli precedenti. Alcuni degli esperti ipotizzati includono:

  1. Esperto in preparazione ai test: Specializzato nel riconoscere e risolvere problemi in settori come scienze, diritto e matematica, questo esperto potrebbe essere addestrato su specifici dataset relativi a esami standardizzati, migliorando la precisione e l’efficacia nelle risposte accademiche.
  2. Esperto in linguaggi di programmazione: Grazie al crescente utilizzo di GPT-4 per la generazione di codice e il debug, un esperto potrebbe essere ottimizzato per gestire linguaggi di programmazione come Python, JavaScript e altri. Questo esperto può gestire anche le interazioni con API e sistemi complessi, integrando funzionalità essenziali come il plugin Code Interpreter.
  3. Esperto di interpretazione delle immagini: Con l’inclusione della visione artificiale, GPT-4 è in grado di analizzare immagini complesse come radiografie, risonanze magnetiche e persino immagini satellitari. Un esperto specifico potrebbe essere addestrato su immagini mediche o tecniche, migliorando la capacità del modello di fornire diagnosi o interpretazioni precise.
  4. Esperto di risoluzione di problemi matematici e scientifici: La risoluzione di problemi scientifici complessi richiede competenze specializzate in diverse branche della matematica, fisica e altre scienze. GPT-4 potrebbe avere esperti capaci di risolvere equazioni differenziali, problemi di statistica avanzata o modellazione fisica.
  5. Esperto di sintesi e analisi dei dati: Per rispondere a domande che richiedono la comprensione e l’analisi di ampie quantità di dati, potrebbe esserci un esperto capace di estrarre e sintetizzare informazioni da dataset complessi, ad esempio nell’ambito della ricerca scientifica o dei big data.
  6. Esperto di controllo dei fatti (fact-checking): Un modello di IA così avanzato deve affrontare il problema della verifica delle informazioni. Un esperto specializzato potrebbe monitorare la coerenza e la veridicità delle affermazioni prodotte, confrontandole con fonti esterne e correggendo eventuali errori o imprecisioni.
  7. Esperto di sicurezza ed etica: Data la crescente attenzione verso la sicurezza dell’IA, è fondamentale che ci sia un esperto in grado di identificare output potenzialmente dannosi, prevenendo bias o contenuti offensivi. Questo esperto sarebbe formato su un vasto corpus di dati riguardanti etica, sicurezza e politiche di moderazione.
  8. Esperto culturale: Per migliorare le capacità multilingue e interculturali di GPT-4, potrebbe esistere un esperto dedicato a comprendere dialetti, espressioni idiomatiche e contesti culturali. Ciò migliora la capacità di interagire in modo più naturale e preciso con utenti di tutto il mondo.

Forse:

9. Esperto di linguistica avanzata e traduzione multilingue

Questo esperto sarebbe specializzato nell’elaborazione di lingue diverse e nella comprensione profonda delle regole grammaticali, sintattiche e semantiche di più lingue. Si occuperebbe di migliorare le traduzioni tra lingue, garantendo una maggiore precisione e fluidità, e di gestire i contesti complessi, come l’uso di espressioni idiomatiche e riferimenti culturali che spesso mancano nelle traduzioni automatiche più semplici.

10. Esperto di simulazione e modellazione scientifica

Con l’abilità di risolvere problemi complessi, GPT-4 potrebbe avere un esperto specificamente addestrato per eseguire simulazioni fisiche, biologiche o economiche. Questo modello potrebbe essere usato in contesti come la ricerca scientifica, aiutando a modellare fenomeni naturali come le dinamiche climatiche, la crescita economica, la diffusione di malattie o persino l’ottimizzazione di sistemi ingegneristici.

11. Esperto di bioinformatica e genetica

In un campo emergente come la bioinformatica, questo esperto potrebbe essere specializzato nell’analisi di dati genetici e biologici complessi. Potrebbe essere utilizzato per studiare sequenze di DNA, RNA, proteine e fornire analisi approfondite su mutazioni genetiche, relazioni evolutive o persino per supportare lo sviluppo di nuove terapie mediche.

12. Esperto di interazione naturale con l’utente (Natural Language Understanding – NLU)

Un esperto specializzato nell’interazione naturale con gli utenti potrebbe essere addestrato per comprendere il linguaggio in modo più fluido e intuitivo, interpretando meglio le ambiguità linguistiche e i contesti conversazionali. Questo esperto ottimizzerebbe le capacità del modello di IA di partecipare a conversazioni naturali e rispondere con maggiore pertinenza e sensibilità alle richieste degli utenti.

13. Esperto di cybersecurity e crittografia

Un modello esperto focalizzato sulla sicurezza informatica potrebbe essere addestrato per individuare vulnerabilità nei sistemi di sicurezza, rilevare potenziali attacchi informatici o persino comprendere e generare algoritmi crittografici complessi. Questo esperto potrebbe supportare attività di monitoraggio della sicurezza e prevenzione di minacce in tempo reale, contribuendo a migliorare la protezione dei dati e delle reti.

14. Esperto di filosofia ed etica

Con il crescente impatto delle IA nella società, un esperto in filosofia ed etica sarebbe fondamentale per rispondere a domande complesse di natura morale. Questo esperto potrebbe analizzare questioni di bioetica, giustizia, diritti umani e dilemmi etici, fornendo risposte basate su teorie morali consolidate e contribuendo alla creazione di decisioni più responsabili dal punto di vista etico.

15. Esperto di economia e finanza

In grado di analizzare complessi sistemi economici e finanziari, questo esperto potrebbe fornire previsioni economiche, analisi di mercato, suggerimenti di investimento o persino simulazioni di politiche economiche. Potrebbe analizzare trend finanziari, eseguire modelli econometrici e valutare l’impatto di decisioni economiche su vasta scala.

16. Esperto di creatività e generazione artistica

Un modello specializzato nella creatività potrebbe essere orientato alla generazione di contenuti artistici come testi narrativi, poesia, musica o persino immagini visive. Questo esperto sarebbe ottimizzato per spingere i limiti dell’espressione creativa, combinando elementi stilistici inediti e offrendo spunti innovativi per progetti artistici, sceneggiature o design.

Selezione Dinamica degli Esperti

Uno dei punti cruciali nell’architettura MoE è il modo in cui viene selezionato l’esperto o il gruppo di esperti per un determinato compito. Non è realistico pensare che tutti e 16 gli esperti vengano attivati contemporaneamente. Piuttosto, il modello sfrutta un meccanismo di controllo che decide quale esperto è più adatto in base alla specifica richiesta. Questo processo di selezione dinamica è probabilmente basato su algoritmi di machine learning che analizzano le caratteristiche del compito e attivano solo gli esperti necessari, ottimizzando così sia la qualità dell’output che le risorse computazionali.

Implicazioni e Sfide della Messa a Punto

Una delle sfide principali per un modello di questa complessità è la continua messa a punto per garantire sia prestazioni elevate che sicurezza. Alcune ricerche recenti indicano che GPT-4 potrebbe aver subito modifiche che hanno influenzato la sua precisione, probabilmente a causa di aggiustamenti per ridurre il rischio di output dannosi o inappropriati. Queste modifiche potrebbero aver avuto effetti collaterali imprevisti, come una riduzione temporanea delle capacità in alcuni contesti.

La sfida principale per OpenAI sarà dunque quella di bilanciare la complessità crescente del modello con la necessità di mantenere un livello costante di sicurezza e precisione. Il processo di tuning potrebbe riguardare non solo gli esperti stessi, ma anche il modello di gestione della qualità, incaricato di monitorare e correggere eventuali errori nei risultati generati

L’evoluzione dell’intelligenza artificiale, rappresentata da GPT-4, segna un passo importante verso un futuro in cui le macchine potranno assistere l’umanità in una vasta gamma di settori, dalla scienza all’intrattenimento, dalla medicina alla programmazione. Sebbene i dettagli tecnici di GPT-4 rimangano in gran parte speculativi, la sua capacità di migliorare le prestazioni attraverso l’architettura Mixture of Experts è indicativa delle direzioni future che l’IA potrebbe prendere.

La continua messa a punto e l’ottimizzazione di questi modelli sono fondamentali per il progresso dell’IA, e l’evoluzione di GPT-4 dimostra il potenziale di questa tecnologia. Le sfide da affrontare riguarderanno non solo il miglioramento delle capacità tecniche, ma anche la creazione di sistemi etici, sicuri e affidabili.