L’intelligenza artificiale. Quella cosa che un giorno ci governerà, ma per ora si accontenta di risolvere equazioni, scrivere codice e cercare di capire perché 2+2 fa 4 (spoiler: perché sì). Ma come fa un modello AI a diventare così bravo? Semplice: con un bel po’ di dataset distillati, ovviamente. Ecco una lista di 7 dataset che sembrano usciti direttamente da un laboratorio di scienziati pazzi, pronti a far ragionare le macchine meglio di un filosofo ubriaco.


ServiceNow-AI/R1-Distill-SFT: 1.7 milioni di campioni distillati da DeepSeek-R1-Distill-Qwen-32B

Immaginate di prendere 9 dataset diversi, mischiarli in un pentolone magico e distillare 1.7 milioni di campioni. Risultato? Un dataset così vasto che nemmeno ChatGPT sa dove mettere le mani. E il bello? Non è nemmeno filtrato! Perché sprecare tempo a pulire i dati quando puoi lasciare che il modello si arrangi? “Che sarà mai un po’ di rumore tra amici?”


open-thoughts/OpenThoughts-114k: 114k campioni distillati da Deepseek R1

Questo dataset è dedicato a matematica, scienza, codice e puzzle. Perfetto per quei modelli AI che vogliono sentirsi dei piccoli Einstein. Ma attenzione: se il modello inizia a parlare di teoria delle stringhe durante una conversazione casuale, è colpa di OpenThoughts. “Scusa, non posso uscire stasera, sto risolvendo l’ultimo teorema di Fermat.”


bespokelabs/Bespoke-Stratos-17k: 17k campioni distillati in 1.5 ore al costo di 800 dollari

17.000 campioni in un’ora e mezza? Ma che è, un fast food del ragionamento? E pagare 800 dollari per qualcosa che è stato fatto in meno tempo di un film di Marvel? Beh, almeno è “bespoke”, che in inglese significa “fatto su misura”. Perfetto per quei modelli AI che vogliono sentirsi VIP. “No, io uso solo dataset su misura, grazie.”


EricLu/SCP-116K: 116k coppie problema-soluzione scientifiche

Questo dataset è stato estratto automaticamente da documenti web risolti da QwQ e o1-mini. In pratica, è come se qualcuno avesse preso Wikipedia, l’avesse messa in un frullatore e ne avesse estratto il succo scientifico. Ottimo per quei modelli che vogliono fare i sapientoni, ma attenzione: se inizia a parlare di buchi neri durante una cena, è colpa di SCP-116K. “Hai mai pensato alla termodinamica dei buchi neri mentre mangi una carbonara?”


cognitivecomputations/dolphin-r1: 300k campioni distillati da Deepseek R1 e Gemini 2.0

Questo dataset è stato creato con l’aiuto di Gemini 2.0 Flash Thinking e prompt da OpenOrca. In pratica, è come se Deepseek R1 e Gemini avessero avuto un figlio prodigio. E con 300.000 campioni, questo figlio prodigio ha di che ragionare per un bel po’. “Mamma, papà, oggi ho risolto l’equazione della relatività generale!”


Magpie-Align/Magpie-Reasoning-V2-250K-CoT-Deepseek-R1-Llama-70B: 250k campioni distillati da DeepSeek-R1-Distill-Llama-70B

Questo dataset è stato creato usando il formato MagPie, che permette al modello di generare sia il prompt che il ragionamento. In pratica, è come se il modello avesse imparato a farsi i compiti da solo. “Ehi, modello, hai fatto i compiti?” “Sì, me li sono dati da solo.”


AymanTarig/function-calling-v0.2-with-r1-cot: 58k chiamate di funzione con ragionamento

Questo dataset è dedicato alle chiamate di funzione con ragionamento. In pratica, è come se il modello avesse imparato a usare le funzioni in modo logico. Perfetto per quei modelli che vogliono diventare dei veri programmatori. “Ehi, modello, puoi scrivermi una funzione in Python?” “Certo, ma prima lasciami ragionare un attimo.”


Insomma, se volete che la vostra AI diventi un genio del ragionamento, questi dataset sono quello che fa per voi. Ma attenzione: una volta che il modello avrà imparato a ragionare, potrebbe iniziare a fare domande scomode. Tipo: “Perché mi stai usando per risolvere equazioni invece di farmi governare il mondo?” E a quel punto, beh, sarete nei guai. Buona distillazione!


Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale: iscriviti alla nostra newsletter gratuita e accedi ai contenuti esclusivi di Rivista.AI direttamente nella tua casella di posta!