Apple e NVIDIA hanno recentemente unito le forze per accelerare le prestazioni dei modelli linguistici di grandi dimensioni (LLM), integrando la tecnica Recurrent Drafter (ReDrafter) di Apple nel framework TensorRT-LLM di NVIDIA.
ReDrafter, sviluppato e reso open source da Apple all’inizio di quest’anno, rappresenta un approccio innovativo al decoding speculativo, combinando un modello di bozza basato su reti neurali ricorrenti (RNN) con tecniche avanzate come la ricerca a fascio (beam search) e l’attenzione ad albero dinamico (dynamic tree attention). Questa combinazione consente di generare testo in modo significativamente più rapido, raggiungendo velocità fino a 3,5 token per passo di generazione, superando le tecniche precedenti.