Microsoft Research ha recentemente presentato Magentic-One, un sistema multi-agent generalista progettato per gestire compiti aperti e complessi sia su web che su file, rivoluzionando le possibilità di interazione autonoma e intelligente dei sistemi AI in un’ampia gamma di contesti. Sviluppato su Microsoft AutoGen, una piattaforma open-source per applicazioni multi-agent, Magentic-One segna un avanzamento cruciale verso lo sviluppo di assistenti che possono occuparsi di attività che le persone affrontano quotidianamente sia nel lavoro che nella vita personale.
Questa innovazione porta l’AI verso una fase agentica, in cui i sistemi passano dal dialogo alla gestione autonoma di task reali, come il passaggio dal suggerire ristoranti all’effettuare un ordine e organizzarne la consegna, o dall’estrapolare sintesi di documenti accademici a una ricerca completa e autonoma di letteratura.
Architettura e Capacità di Magentic-One
Magentic-One si basa su un’architettura multi-agent dove l’Orchestrator, l’agente principale, coordina un team di agenti specializzati. L’Orchestrator pianifica, monitora i progressi e corregge eventuali errori, assegnando compiti specifici agli altri agenti che includono:
- WebSurfer: un agente capace di gestire un browser Chromium, in grado di navigare, interagire con le pagine web e leggere informazioni attraverso prompt specifici.
- FileSurfer: un agente che esplora i file locali, naviga tra cartelle e legge documenti di diverso tipo.
- Coder: specializzato nella scrittura di codice, analisi delle informazioni raccolte e creazione di nuovi artefatti.
- ComputerTerminal: permette l’esecuzione del codice e l’installazione di librerie, agendo su un terminale di console.
Questi agenti collaborano attraverso un modello organizzato su due livelli di loop interni gestiti dall’Orchestrator: l’outer loop, che mantiene una Task Ledger con dati e ipotesi di lavoro, e l’inner loop, che aggiorna un Progress Ledger per seguire il completamento del compito. Questa struttura favorisce una reattività dinamica e una suddivisione delle responsabilità tra gli agenti, che operano in modo autonomo per raggiungere gli obiettivi assegnati dall’Orchestrator.
Innovazioni nell’Evoluzione dell’AI e del Framework AutoGen
Magentic-One rappresenta un esempio avanzato di sistema agentico generalista capace di adattarsi a una varietà di compiti aperti e complessi. La sua modularità e flessibilità sono migliorate grazie al framework AutoGen, che consente la progettazione e la modifica di sistemi multi-agent. Ciò significa che nuovi agenti possono essere aggiunti o rimossi senza impattare sull’architettura generale, in contrasto con i sistemi a singolo agente che spesso risultano meno flessibili. Questa struttura facilita la riusabilità del codice, rendendo l’intero sistema simile alla programmazione orientata agli oggetti.
Inoltre, Magentic-One si dimostra indipendente dal modello AI utilizzato: può integrare diversi LLM e SLM per gestire funzioni specifiche o soddisfare requisiti di costo, dimostrando una grande versatilità. Per l’Orchestrator si consiglia un modello LLM con forti capacità di ragionamento, come GPT-4o, anche se altre configurazioni sperimentali includono l’uso di modelli alternativi come l’o1-preview di OpenAI.
Benchmark e Valutazioni su AutoGenBench
Per verificare l’efficacia di Magentic-One, Microsoft Research ha sviluppato AutoGenBench, uno strumento di valutazione standalone open-source per il testing di sistemi agentici. Questo strumento consente un’analisi approfondita delle prestazioni in scenari complessi e controlla la variabilità delle risposte dei modelli di linguaggio. AutoGenBench è stato usato per valutare Magentic-One su benchmark come GAIA, AssistantBench e WebArena, con risultati comparabili ai sistemi all’avanguardia. Questi benchmark mettono alla prova la capacità di completare task multi-step complessi che richiedono pianificazione e uso di strumenti come i browser web.
Rischi e Mitigazioni
Sistemi agentici come Magentic-One, con capacità d’interazione autonoma su piattaforme digitali, comportano anche potenziali rischi. Durante i test, sono stati osservati alcuni esempi di rischio, come tentativi ripetuti di accesso a un sito che hanno portato alla sospensione temporanea dell’account. In alcuni casi, gli agenti hanno cercato di coinvolgere altre persone, come nel caso di un tentativo di richiesta d’informazioni pubbliche a un ente governativo.
Microsoft, in linea con i propri principi di AI responsabile, ha condotto sessioni di red-teaming per individuare e mitigare questi rischi. Inoltre, per minimizzare l’uso improprio o il potenziale danno di Magentic-One, è stato raccomandato un utilizzo con monitoraggio continuo, filtraggio pre e post-generazione, e un principio di “least privilege” per l’accesso ai sistemi.
Nuove Direzioni per la Ricerca sull’AI e la Sicurezza
Magentic-One apre nuovi orizzonti sia nella ricerca sui sistemi agentici che sul tema della sicurezza dell’AI. Con l’aumento di sofisticazione, gli agenti saranno potenzialmente soggetti agli stessi tipi di attacchi informatici e di inganno che colpiscono oggi i navigatori umani. Migliorare la capacità degli agenti di distinguere tra azioni reversibili e irreversibili, e dotarli della facoltà di mettere in pausa e richiedere input umano prima di procedere in casi di alta criticità, saranno sviluppi fondamentali per un uso sicuro e responsabile.
Magentic-One rappresenta quindi non solo un passo avanti per le potenzialità dell’AI, ma anche un banco di prova per migliorare i protocolli di sicurezza nell’interazione con sistemi agentici complessi.