Andrej Karpathy, noto esperto di intelligenza artificiale e deep learning, ha recentemente annunciato l’apertura di un nuovo corso online intitolato “LLM101n: Let’s Build a Storyteller”. Questo corso si propone di guidare gli studenti nella costruzione di un modello di linguaggio di grandi dimensioni (Large Language Model o LLM) in grado di generare storie in modo collaborativo.
Il corso, che sarà disponibile gratuitamente sulla piattaforma GitHub, coprirà una vasta gamma di argomenti legati all’apprendimento automatico e all’intelligenza artificiale, partendo dalle basi fino ad arrivare alla realizzazione di un’applicazione web simile a ChatGPT. Tra gli argomenti chiave troviamo:
Programma del corso
- Capitolo 1: Modello di linguaggio a bigrammi – Introduzione al concetto di language modeling.
- Capitolo 2: Micrograd – Apprendimento automatico e backpropagation.
- Capitolo 3: Modello N-grammi – Reti neurali feed-forward, moltiplicazioni di matrici e GELU.
- Capitolo 4: Attenzione – Meccanismo di attenzione, softmax e codifica posizionale.
- Capitolo 5: Transformer – Architettura Transformer, residual connection, layer normalization e GPT-2.
- Capitolo 6: Tokenizzazione – Minibyte Pair Encoding (miniBPE) e Byte Pair Encoding.
- Capitolo 7: Ottimizzazione – Inizializzazione, ottimizzazione e AdamW.
- Capitolo 8: Prestazioni I: Dispositivi – CPU, GPU e altri dispositivi.
- Capitolo 9: Prestazioni II: Precisione – Allenamento in precisione mista, FP16, BF16 e FP8.
- Capitolo 10: Prestazioni III: Distribuzione – Ottimizzazione distribuita, DDP e ZeRO.
- Capitolo 11: Dataset – Caricamento dati, generazione dati sintetici.
- Capitolo 12: Inferenza I: kv-cache – Cache chiave-valore.
- Capitolo 13: Inferenza II: Quantizzazione – Quantizzazione.
- Capitolo 14: Fine-tuning I: SFT – Fine-tuning supervisionato, PEFT, LoRA e chat.
- Capitolo 15: Fine-tuning II: RL – Apprendimento per rinforzo, RLHF, PPO e DPO.
- Capitolo 16: Deployment – API e applicazione web.
- Capitolo 17: Multimodale – VQVAE, transformer a diffusione.
Karpathy, noto per i suoi corsi di alta qualità e il suo impegno nell’educazione, ha dichiarato che l’obiettivo del corso è fornire una comprensione relativamente approfondita dell’intelligenza artificiale, dei modelli di linguaggio di grandi dimensioni e dell’apprendimento profondo in generale.
Il corso sarà costruito interamente dal basso, partendo dalle basi del calcolo tensoriale e della programmazione in Python, C e CUDA, senza richiedere prerequisiti di informatica avanzata. Questo approccio consentirà agli studenti di acquisire una conoscenza solida e completa della tecnologia alla base dei modelli di linguaggio di ultima generazione.
La comunità di appassionati di intelligenza artificiale è già molto entusiasta di questo nuovo corso di Karpathy, che promette di essere un’opportunità unica per imparare a costruire un modello di linguaggio generativo avanzato direttamente dal noto esperto del settore.
Lascia un commento
Devi essere connesso per inviare un commento.