Negli ultimi anni, i Transformers sono emersi come l’architettura dominante nel campo del deep learning, specialmente per compiti come la traduzione automatica e la generazione di testo. Tuttavia, i Transformers presentano delle limitazioni significative, in particolare la complessità computazionale quadratica rispetto alla lunghezza delle sequenze di input. Questo rende difficile la loro applicazione su lunghe sequenze di dati, soprattutto in contesti con risorse limitate. Di conseguenza, è rinata l’attenzione verso modelli sequenziali ricorrenti, che sono più efficienti nel processare contesti di lunghezza significativa. Ma ci chiediamo: erano già sufficienti le Reti Neurali Ricorrenti (RNNs) tradizionali?

Un ritorno alle RNNs: LSTMs e GRUs

Le Reti Neurali Ricorrenti sono state introdotte per catturare le dipendenze temporali nei dati sequenziali. Due tra le architetture RNN più note sono le Long Short-Term Memory (LSTM), sviluppate nel 1997, e le Gated Recurrent Units (GRU), introdotte nel 2014. Entrambi questi modelli erano progettati per risolvere problemi noti delle RNN tradizionali, come la vanishing gradient problem, migliorando la capacità di apprendere dipendenze a lungo termine. Tuttavia, una loro limitazione intrinseca è la necessità di backpropagation attraverso il tempo (BPTT), che rallenta considerevolmente il processo di addestramento, limitando la scalabilità a lunghe sequenze.

Limiti dei Transformers e la rinascita delle RNNs

Il successo dei Transformers, introdotti con l’iconico lavoro Attention is All You Need, ha portato a enormi progressi in ambiti come la traduzione e la generazione di linguaggio naturale. Tuttavia, il costo computazionale dei Transformers cresce in modo quadratico con la lunghezza della sequenza. Questo rende i Transformers meno pratici per gestire sequenze molto lunghe. Recentemente, sono stati proposti nuovi modelli sequenziali ricorrenti, come i modelli state-space (ad esempio, Mamba e Aaren) che possono essere addestrati in parallelo e processare sequenze più lunghe. Questi modelli offrono prestazioni comparabili ai Transformers, ma con una migliore efficienza.

Revisione delle architetture RNN

Partendo dai recenti sviluppi sui modelli ricorrenti, questa ricerca ha deciso di tornare a esaminare le RNN tradizionali, in particolare le LSTM e le GRU, da una prospettiva moderna. Attraverso delle modifiche alle loro architetture, è stato possibile superare le limitazioni relative al BPTT. In particolare, rimuovendo la dipendenza dallo stato nascosto per le porte di input, forget e update, queste architetture possono essere addestrate in parallelo. Le versioni minimali di questi modelli, denominate minLSTM e minGRU, riducono significativamente il numero di parametri e possono essere addestrate fino a 175 volte più velocemente per sequenze di lunghezza 512, pur mantenendo prestazioni competitive con i modelli sequenziali moderni.

I miglioramenti nelle RNNs minimali

I nuovi modelli minimali (minLSTM e minGRU) semplificano le tradizionali architetture LSTM e GRU in due modi fondamentali:

  1. Rimozione delle dipendenze dallo stato nascosto: Le porte di controllo (input, forget, update) non dipendono più dagli stati nascosti precedenti, permettendo il calcolo parallelo.
  2. Riduzione dei parametri: Con un numero inferiore di parametri, minLSTM e minGRU risultano molto più efficienti rispetto ai loro predecessori, senza sacrificare le prestazioni.

Ad esempio, nel caso di minGRU, il numero di parametri richiesto è stato ridotto drasticamente, e ciò ha portato a una velocità di addestramento notevolmente aumentata. In contesti dove una GRU tradizionale richiederebbe diversi anni per completare un addestramento, la minGRU impiegherebbe solo un giorno. Tuttavia, va notato che questa ottimizzazione ha un costo: un aumento nell’uso della memoria, dovuto alla maggiore complessità del grafo computazionale.

Efficienza e prestazioni

Per valutare l’efficacia delle versioni minimali, sono stati condotti esperimenti su diversi task, tra cui il Selective Copying Task, i benchmark di Reinforcement Learning e un task di modellazione linguistica. Nel primo caso, sia minLSTM che minGRU hanno dimostrato di poter risolvere con successo il compito, mentre molti modelli moderni, come S4 e Hyena, hanno mostrato difficoltà. Anche nei test di reinforcement learning e modellazione del linguaggio, i modelli minimali hanno ottenuto risultati competitivi, a volte superando le architetture più moderne.

Inoltre, uno degli aspetti chiave che emerge dagli esperimenti è la stabilità nel training. Le minGRU risultano più stabili e consistenti rispetto alle minLSTM, grazie alla semplificazione delle porte di controllo che riducono il rischio di conflitti durante l’addestramento.

Erano sufficienti le RNNs?

I risultati di questo studio dimostrano che, con le giuste modifiche, le RNNs tradizionali possono competere efficacemente con le architetture sequenziali più recenti come i Transformers. Le versioni minimali delle RNNs non solo eliminano il problema della scalabilità, ma forniscono anche prestazioni comparabili con modelli all’avanguardia, con il vantaggio di una maggiore efficienza computazionale.

Questo ci porta a riconsiderare la domanda che dà il titolo a questa ricerca: Were RNNs All We Needed? Forse la risposta non è univoca, ma questo studio evidenzia che con le giuste ottimizzazioni, le RNNs possono ancora rappresentare una soluzione potente e scalabile per molti problemi di modellazione sequenziale.