Cerebras, una startup di intelligenza artificiale con sede in California, ha svelato la sua ultima innovazione, Cerebras Inference, che secondo l’azienda è la soluzione di inferenza AI più veloce al mondo.

L’azienda afferma che questa nuova offerta può elaborare 1.800 token al secondo per il modello Llama3.1 8B e 450 token al secondo per il modello Llama3.1 70B, raggiungendo velocità 20 volte superiori rispetto a quelle delle soluzioni cloud hyperscale basate su GPU di NVIDIA.