Microsoft non poteva restare a guardare mentre OpenAI e Anthropic si facevano i propri maggiordomi digitali personali. Così questa settimana ha sganciato il suo colpo: una nuova funzione per Copilot Studio chiamata, in perfetto stile Silicon Valley, “computer use”. Tradotto: l’intelligenza artificiale di Redmond ora può usare il tuo computer come farebbe un umano. Ma senza sindacati, pause caffè o click sbagliati dovuti alla noia.
In pratica, Copilot Studio potrà cliccare bottoni, scrivere nei campi di testo, aprire menu a tendina e — cosa ben più interessante — interagire con applicazioni desktop e siti web anche quando non esistono API ufficiali. L’AI impara dall’interfaccia utente visiva. Se un umano può farlo guardando lo schermo, l’agente AI può farlo anche meglio. O almeno ci prova.
La vera bomba però non è il “click automatico”, ma la resilienza: secondo Microsoft, questi agenti digitali sono in grado di continuare a lavorare anche quando cambia la UI. Niente panico da pulsanti spostati o menù rinominati. Se lo fanno davvero, è un mezzo miracolo. In un contesto enterprise, significa che automazioni che prima richiedevano settimane di RPA, ora si costruiscono in ore, direttamente da business analyst armati di mouse e pazienza.
Questa nuova capacità è già in rollout dentro Copilot Studio, la piattaforma low-code/no-code per creare automazioni alimentate da AI. Sarà usata per inserire dati, fare ricerche di mercato, gestire fatture. Praticamente tutto quello che oggi facciamo a mano perché “non c’è l’integrazione”.
Nel frattempo, anche Anthropic ha lanciato Claude 3.5 Sonnet con la sua versione di “computer use”. Funziona in beta, è limitata, ed è un po’ zoppa perché si basa su screenshot che vengono cuciti insieme tipo flipbook. Risultato: Claude può perdersi azioni veloci, popup a scomparsa o eventi fugaci. È l’equivalente di cercare di lavorare guardando il monitor di un collega ogni 2 secondi.
Poi c’è il colosso nella stanza: Operator, l’agente AI di OpenAI che combina GPT-4o con un browser interno. L’idea è ambiziosa e (giustamente) limitata a chi paga 200 dollari al mese per ChatGPT Pro. Operator può navigare su siti web, compilare form, scrollare pagine, cliccare pulsanti, e colpo di scena capisce quando fermarsi. Se un sito chiede una password o informazioni sensibili, Operator passa il testimone all’utente. E se si incarta, lo dice. Una roba quasi umana, ma senza la frustrazione da helpdesk.
Il tutto condito da una spruzzata di reinforcement learning, che permette all’agente di correggersi da solo. Ma attenzione: OpenAI ci tiene a ricordare che questa è solo una preview di ricerca. Non aspettatevi che vi faccia le slide per la prossima board meeting, almeno non ancora.
A livello di ecosistema, OpenAI ha già messo sotto contratto mezza Internet utile: DoorDash, Instacart, OpenTable, Uber e altri stanno integrando Operator per permettergli di eseguire azioni “autonome” in contesti reali. Claude, invece, viene tenuto lontano dai guai: vietato social media, contenuti politici, registrazione domini o interazione con siti governativi. Insomma, niente trolling automatico né deepfake da propaganda.
Mentre il mainstream discute ancora se ChatGPT sa contare fino a dieci, questi sistemi stanno silenziosamente diventando agenti digitali generalisti. Non si limitano a generare testo: agiscono nel mondo digitale. È l’equivalente dell’assistente che non solo ti scrive le email, ma le manda, controlla le risposte, prenota voli e manda la fattura al cliente.
L’automazione non è più RPA noiosa o API criptiche. È interazione umana simulata.
Con una differenza: questi agenti non si lamentano mai, non fanno sciopero, e al massimo si rompono silenziosamente, lasciando a te il compito di capire dove. Bentornati nell’età dell’oro dell’automazione: adesso anche i bot cliccano.