ByteDance, il colosso dietro TikTok, sta alzando l’asticella nell’intelligenza artificiale con una nuova tecnologia che promette di superare DeepSeek e ridefinire l’addestramento dei modelli di ragionamento AI. Il sistema, battezzato DAPO (Decoupled Clip and Dynamic Sampling Policy Optimisation), è un algoritmo di reinforcement learning scalabile che punta a migliorare le capacità di ragionamento complesso dei modelli linguistici, con tecniche di auto-verifica e raffinamento iterativo.