Negli ultimi anni, i Transformers sono emersi come l’architettura dominante nel campo del deep learning, specialmente per compiti come la traduzione automatica e la generazione di testo. Tuttavia, i Transformers presentano delle limitazioni significative, in particolare la complessità computazionale quadratica rispetto alla lunghezza delle sequenze di input. Questo rende difficile la loro applicazione su lunghe sequenze di dati, soprattutto in contesti con risorse limitate. Di conseguenza, è rinata l’attenzione verso modelli sequenziali ricorrenti, che sono più efficienti nel processare contesti di lunghezza significativa. Ma ci chiediamo: erano già sufficienti le Reti Neurali Ricorrenti (RNNs) tradizionali?