Apple e NVIDIA hanno recentemente unito le forze per accelerare le prestazioni dei modelli linguistici di grandi dimensioni (LLM), integrando la tecnica Recurrent Drafter (ReDrafter) di Apple nel framework TensorRT-LLM di NVIDIA.
ReDrafter, sviluppato e reso open source da Apple all’inizio di quest’anno, rappresenta un approccio innovativo al decoding speculativo, combinando un modello di bozza basato su reti neurali ricorrenti (RNN) con tecniche avanzate come la ricerca a fascio (beam search) e l’attenzione ad albero dinamico (dynamic tree attention). Questa combinazione consente di generare testo in modo significativamente più rapido, raggiungendo velocità fino a 3,5 token per passo di generazione, superando le tecniche precedenti.
La collaborazione con NVIDIA ha permesso l’integrazione di ReDrafter nel framework TensorRT-LLM, utilizzato per accelerare l’inferenza degli LLM su GPU NVIDIA. Questo processo ha richiesto l’aggiunta di nuovi operatori e l’ottimizzazione di quelli esistenti, migliorando la capacità di TensorRT-LLM di gestire modelli complessi e metodi di decoding avanzati. I risultati dei benchmark indicano un incremento di 2,7 volte nella velocità di generazione dei token per il greedy decoding su GPU NVIDIA, riducendo significativamente la latenza e il consumo energetico.
Questo progresso ha implicazioni rilevanti per le applicazioni di produzione che utilizzano LLM, poiché migliora l’efficienza dell’inferenza, riducendo i costi computazionali e migliorando l’esperienza dell’utente finale. Gli sviluppatori possono ora beneficiare di una generazione di token più rapida nelle loro applicazioni LLM utilizzando GPU NVIDIA, grazie all’integrazione di ReDrafter in TensorRT-LLM.