L’avvento di Evo 2, sviluppato da NVIDIA in collaborazione con Arc Institute e Università di Stanford, rappresenta una svolta epocale nell’applicazione delle architetture di deep learning alla biologia molecolare. Analogamente ai Large Language Models (LLM) come ChatGPT, addestrati su miliardi di testi per generare linguaggio umano, Evo 2 sfrutta una struttura analoga per interpretare e generare sequenze genetiche, aprendo nuovi orizzonti nella ricerca genomica, nella medicina personalizzata e nella progettazione biotecnologica.
La rivoluzione di Evo 2 risiede nel trasferimento dei principi degli LLM al dominio biologico. Mentre ChatGPT analizza correlazioni statistiche tra parole per prevedere sequenze testuali, Evo 2 identifica modelli nei nucleotidi (A, T, C, G) e negli amminoacidi, apprendendo le “regole grammaticali” del codice genetico. Entrambi i modelli utilizzano architetture trasformers basate su meccanismi di attenzione, ma Evo 2 opera su un vocabolario ridotto (4 simboli per il DNA vs. ~50.000 token linguistici) con contesti estremamente lunghi – fino a 1 milione di nucleotidi contro le poche migliaia di token tipici degli LLM.