Andrej Karpathy, noto esperto di intelligenza artificiale e deep learning, ha recentemente annunciato l’apertura di un nuovo corso online intitolato “LLM101n: Let’s Build a Storyteller”. Questo corso si propone di guidare gli studenti nella costruzione di un modello di linguaggio di grandi dimensioni (Large Language Model o LLM) in grado di generare storie in modo collaborativo.

Il corso, che sarà disponibile gratuitamente sulla piattaforma GitHub, coprirà una vasta gamma di argomenti legati all’apprendimento automatico e all’intelligenza artificiale, partendo dalle basi fino ad arrivare alla realizzazione di un’applicazione web simile a ChatGPT. Tra gli argomenti chiave troviamo:

Programma del corso

  • Capitolo 1: Modello di linguaggio a bigrammi – Introduzione al concetto di language modeling.
  • Capitolo 2: Micrograd – Apprendimento automatico e backpropagation.
  • Capitolo 3: Modello N-grammi – Reti neurali feed-forward, moltiplicazioni di matrici e GELU.
  • Capitolo 4: Attenzione – Meccanismo di attenzione, softmax e codifica posizionale.
  • Capitolo 5: Transformer – Architettura Transformer, residual connection, layer normalization e GPT-2.
  • Capitolo 6: Tokenizzazione – Minibyte Pair Encoding (miniBPE) e Byte Pair Encoding.
  • Capitolo 7: Ottimizzazione – Inizializzazione, ottimizzazione e AdamW.
  • Capitolo 8: Prestazioni I: Dispositivi – CPU, GPU e altri dispositivi.
  • Capitolo 9: Prestazioni II: Precisione – Allenamento in precisione mista, FP16, BF16 e FP8.
  • Capitolo 10: Prestazioni III: Distribuzione – Ottimizzazione distribuita, DDP e ZeRO.
  • Capitolo 11: Dataset – Caricamento dati, generazione dati sintetici.
  • Capitolo 12: Inferenza I: kv-cache – Cache chiave-valore.
  • Capitolo 13: Inferenza II: Quantizzazione – Quantizzazione.
  • Capitolo 14: Fine-tuning I: SFT – Fine-tuning supervisionato, PEFT, LoRA e chat.
  • Capitolo 15: Fine-tuning II: RL – Apprendimento per rinforzo, RLHF, PPO e DPO.
  • Capitolo 16: Deployment – API e applicazione web.
  • Capitolo 17: Multimodale – VQVAE, transformer a diffusione.

Karpathy, noto per i suoi corsi di alta qualità e il suo impegno nell’educazione, ha dichiarato che l’obiettivo del corso è fornire una comprensione relativamente approfondita dell’intelligenza artificiale, dei modelli di linguaggio di grandi dimensioni e dell’apprendimento profondo in generale.

Il corso sarà costruito interamente dal basso, partendo dalle basi del calcolo tensoriale e della programmazione in Python, C e CUDA, senza richiedere prerequisiti di informatica avanzata. Questo approccio consentirà agli studenti di acquisire una conoscenza solida e completa della tecnologia alla base dei modelli di linguaggio di ultima generazione.

La comunità di appassionati di intelligenza artificiale è già molto entusiasta di questo nuovo corso di Karpathy, che promette di essere un’opportunità unica per imparare a costruire un modello di linguaggio generativo avanzato direttamente dal noto esperto del settore.