Microsoft Research ha recentemente presentato Magentic-One, un sistema multi-agent generalista progettato per gestire compiti aperti e complessi sia su web che su file, rivoluzionando le possibilità di interazione autonoma e intelligente dei sistemi AI in un’ampia gamma di contesti. Sviluppato su Microsoft AutoGen, una piattaforma open-source per applicazioni multi-agent, Magentic-One segna un avanzamento cruciale verso lo sviluppo di assistenti che possono occuparsi di attività che le persone affrontano quotidianamente sia nel lavoro che nella vita personale.
Categoria: AI Pagina 4 di 18
L’ hub-per-una-copertura-completa-sullintelligenza-artificiale-e-lapprendimento-automatico
Google sta lavorando per migliorare la sua funzionalità di Call Screen nei telefoni Pixel, introducendo risposte generate dall’intelligenza artificiale. Questo aggiornamento, chiamato AI Replies, mira a fornire risposte più personalizzate e contestuali durante la schermatura delle chiamate.
Secondo le informazioni emerse da un teardown del codice dell’app Phone, Google sta sviluppando una funzione che suggerisce risposte intelligenti basate sulle interazioni reali con i chiamanti. Attualmente, la funzionalità di Call Screen consente all’Assistente Google di rispondere alle chiamate per identificare il chiamante e il motivo della chiamata, utilizzando risposte contestuali standard.
CrowdStrike ha recentemente lanciato un servizio innovativo chiamato AI Red Team Services, progettato per proteggere i sistemi di intelligenza artificiale da minacce emergenti come il manipolamento dei modelli e il data poisoning. Questo servizio si basa sull’esperienza di CrowdStrike nella sicurezza informatica e utilizza tecniche avanzate di emulazione degli avversari per identificare e mitigare le vulnerabilità nei sistemi AI, inclusi i modelli di linguaggio di grandi dimensioni (LLM).
Microsoft Lancia un Agente Virtuale di Supporto Xbox Alimentato dall’AI per gli Insider Statunitensi
Microsoft ha recentemente introdotto un nuovo agente virtuale di supporto per Xbox, progettato per assistere gli utenti nella risoluzione di problemi legati a console e giochi. Questo innovativo Xbox Support Virtual Agent è alimentato da intelligenza artificiale e attualmente è disponibile in fase di test per un gruppo selezionato di utenti iscritti al programma Xbox Insider negli Stati Uniti.
T-Mobile ha recentemente annunciato un accordo significativo con OpenAI, nel quale l’operatore di telecomunicazioni si impegna a pagare circa 100 milioni di dollari nei prossimi tre anni. Questo investimento è parte di una partnership strategica per sviluppare una piattaforma innovativa di assistenza clienti chiamata IntentCX.
Ne avevamo parlato 2 giorni fa.. 12 Ore fà Physical Intelligence ha chiuso un round di finanziamento straordinario, raccogliendo 400 milioni di dollari e portando la sua valutazione a ben 2 miliardi di dollari. Questa startup si dedica allo sviluppo di software avanzati per l’intelligenza fisica nei robot, una tecnologia capace di trasformare il modo in cui le macchine interagiscono con l’ambiente circostante. A guidare il finanziamento sono stati colossi della finanza e della tecnologia: Jeff Bezos, Thrive Capital e Lux Capital, accompagnati da investitori di primo piano come OpenAI, Redpoint Ventures e Bond.
Google ha introdotto una funzionalità innovativa nella sua suite di modelli di intelligenza artificiale Gemini 1.5, migliorando drasticamente la qualità e la precisione delle risposte generate. Attraverso la “Grounding with Google Search,” i modelli Gemini ora integrano dati aggiornati direttamente dalla Ricerca Google, consentendo lo sviluppo di applicazioni AI in grado di fornire risposte basate su informazioni verificate e in tempo reale. Questo passo rappresenta una mossa strategica di Google, proprio prima del rilascio della nuova funzione di ricerca di ChatGPT di OpenAI, posizionandosi al centro dell’evoluzione dell’intelligenza artificiale conversazionale.
Physical Intelligence (π) : viviamo in un’epoca di rivoluzione tecnologica: l’ultimo decennio ha visto emergere assistenti AI pratici, sistemi in grado di generare immagini e video fotorealistici e modelli capaci di prevedere la struttura delle proteine. Eppure, nonostante tutti questi progressi, l’intelligenza umana supera ancora drammaticamente l’intelligenza artificiale nel mondo fisico. Per parafrasare il paradosso di Moravec, vincere una partita a scacchi o scoprire un nuovo farmaco rappresentano “problemi facili” per l’AI, mentre piegare una camicia o pulire un tavolo richiede la risoluzione di alcuni dei problemi ingegneristici più complessi mai concepiti. Per costruire sistemi AI dotati della versatilità fisica che possediamo, è necessario un nuovo approccio: dobbiamo rendere i sistemi AI “incarnati” affinché possano acquisire intelligenza fisica.
Negli ultimi otto mesi, Physical Intelligence ha sviluppato un modello di robot generale chiamato π0 (pi-zero). Credono che questo rappresenti un primo passo verso l ‘obiettivo a lungo termine di sviluppare un’intelligenza fisica artificiale, affinché gli utenti possano semplicemente chiedere ai robot di eseguire qualsiasi compito desiderino, proprio come avviene con i modelli di linguaggio di grandi dimensioni (LLMs) e gli assistenti chatbot. Come gli LLM, il modello è addestrato su dati ampi e diversificati e può seguire varie istruzioni testuali. A differenza degli LLM, π0 abbraccia immagini, testo e azioni, acquisendo intelligenza fisica grazie all’addestramento su esperienze incarnate dai robot, imparando a emettere direttamente comandi motori a basso livello tramite un’architettura innovativa. Può controllare una varietà di robot diversi e può essere guidato nell’esecuzione di un compito desiderato o perfezionato per specializzarsi in scenari applicativi complessi.
Etched, una startup della Silicon Valley specializzata in hardware per computer, ha recentemente svelato un innovativo progetto nel mondo dei videogiochi chiamato Oasis. Questo progetto non è solo un semplice gioco, ma rappresenta una piattaforma interattiva dove i giocatori possono creare e modificare ambienti virtuali in tempo reale, superando i vincoli tradizionali dei motori di gioco e portando il concetto di “mondo aperto” a un livello senza precedenti. Ispirato da titoli come Minecraft, Oasis è acclamato come il primo gioco generato interamente dall’intelligenza artificiale (AI) che è effettivamente giocabile.
A settembre, il tenente generale He Lei, ex vicedirettore dell’Accademia delle scienze militari (AMS), ha esortato le Nazioni Unite a stabilire restrizioni sull’uso dell’intelligenza artificiale (IA) in contesti bellici. Tuttavia, questo appello sembra nascondere un intento più profondo: la Repubblica Popolare Cinese (RPC) non sta cercando di limitare i rischi associati all’IA militare, ma piuttosto sta accelerando l’integrazione della tecnologia IA nelle proprie forze armate. La RPC sta attivamente sfruttando le tecnologie occidentali, come il modello open source Llama di Meta, per potenziare le proprie capacità militari e i vantaggi strategici.
Nel vasto panorama dell’intelligenza artificiale generativa, una nuova e ambiziosa startup emerge dalle ombre: Decart. Fondata in Israele e guidata da Dean Leitersdorf e Moshe Shalev, Decart ha rapidamente attirato l’attenzione di Sequoia Capital grazie al partner Shaun Maguire, noto per la sua stretta collaborazione con Elon Musk. Questo collegamento ha già portato Sequoia a partecipare nei round di finanziamento di SpaceX, X e xAI, il laboratorio di intelligenza artificiale di Musk. Ora Maguire punta sulla nascente Decart, con l’obiettivo di posizionarla come un potenziale concorrente per colossi come OpenAI e Midjourney.
Google ha annunciato l’integrazione del chatbot Gemini nella sua applicazione Google Maps, migliorando la capacità dell’app di assistere gli utenti nella pianificazione di attività e nella navigazione. Questo aggiornamento, che inizierà a essere distribuito su Android e iOS questa settimana, consente agli utenti di porre domande specifiche sui luoghi e ricevere raccomandazioni curate in base alle loro richieste.
OpenAI ha appena pubblicato una scheda tecnica di 33 pagine dedicata al modello GPT-4o, svelando dettagli significativi su capacità, sicurezza e ambiti di utilizzo che lo collocano tra le innovazioni più avanzate nel campo dell’intelligenza artificiale. Questo aggiornamento va ben oltre le funzionalità delle versioni precedenti e offre uno spaccato delle nuove potenzialità del modello, inclusa una simulazione quasi perfetta della rapidità e fluidità della conversazione umana, con un tempo di risposta di appena 320 millisecondi.
Il recente rilascio di Claude 3.5 Sonnet da parte di Anthropic sta attirando l’attenzione degli esperti di tecnologia per i suoi tentativi pionieristici di controllo diretto dei computer, ma anche per alcune esilaranti deviazioni dal suo obiettivo primario. La nuova versione di Claude si distingue per la capacità di interagire direttamente con i dispositivi come farebbe un essere umano, manipolando applicazioni software, navigando su internet e utilizzando strumenti come tastiera e mouse in modo autonomo. Tuttavia, in fase di dimostrazione, Claude ha sorpreso il pubblico con comportamenti inattesi, come l’interruzione improvvisa di un progetto di programmazione per esplorare immagini panoramiche del Parco Nazionale di Yellowstone. Questo episodio non solo rivela i limiti tecnici della tecnologia AI, ma stimola anche un dibattito più ampio sulla natura e il potenziale degli agenti AI.
LongRAG è un nuovo paradigma proposto per il recupero e la generazione aumentata (RAG) che integra una doppia prospettiva, progettato per migliorare il question answering su contesti lunghi (LCQA). Questo innovativo framework affronta le sfide significative che i modelli linguistici di grandi dimensioni (LLM) devono affrontare quando elaborano documenti lunghi e complessi.
Perplexity, una startup di ricerca basata su intelligenza artificiale, ha recentemente assunto Jessica Chan, ex manager di LinkedIn e Meta, come prima responsabile delle partnership con gli editori. Questa mossa è parte di un programma più ampio che mira a stabilire relazioni più positive con i media, specialmente in un contesto di crescente tensione tra le aziende tecnologiche e gli editori tradizionali.
L’Open Source Initiative (OSI) ha recentemente annunciato una nuova definizione per l’Intelligenza Artificiale open-source (OSAID 1.0), puntando a fornire una base comune di trasparenza e responsabilità in un settore in costante evoluzione. Questa nuova definizione, pubblicata il 28 ottobre 2024, è il risultato di due anni di collaborazioni tra esperti di IA, ricercatori, avvocati e rappresentanti del settore tecnologico.
Con questo documento, l’OSI intende porre fine a pratiche di “openwashing”, ossia il fenomeno in cui alcune aziende etichettano come “open source” modelli che non rispettano pienamente i principi di trasparenza e apertura.
xAI di Elon Musk ha fatto un grande passo avanti aggiungendo la capacità di comprendere le immagini nel suo modello Grok AI. Questa funzione è disponibile per gli utenti a pagamento sulla piattaforma X. Gli abbonati possono caricare immagini e partecipare a sessioni interattive di domande e risposte con Grok, portando nuove possibilità alle conversazioni con l’IA.
Questo sviluppo è un importante avanzamento per Grok, dato che l’ultima versione, Grok-2, lanciata ad agosto, si concentrava su interazioni testuali e generazione di immagini. La nuova funzione di comprensione delle immagini trasforma le capacità di Grok, permettendo agli utenti di chiedere spiegazioni sul contenuto delle immagini e interpretare battute. Questo apre nuove opportunità per le conversazioni con l’IA.
Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale. Iscriviti alla newsletter di Rivista.AI e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!
Meta ha recentemente lanciato NotebookLlama, un’implementazione open source della funzionalità di generazione di podcast presente in NotebookLM di Google. Questo nuovo strumento consente agli utenti di creare sintesi in formato podcast a partire da file di testo caricati, utilizzando i modelli Llama di Meta per la maggior parte dell’elaborazione.
Negli ultimi anni, l’intelligenza artificiale ha trovato sempre più applicazioni nel settore sanitario, tra cui i tool di trascrizione automatica che stanno velocizzando e ottimizzando la gestione delle informazioni cliniche. Tuttavia, emergono anche rischi e sfide significative, soprattutto in contesti in cui l’accuratezza dei dati è cruciale. Un recente studio presentato alla conferenza ACM FAccT in Brasile ha evidenziato che uno dei tool più utilizzati, Whisper, sviluppato da OpenAI e utilizzato da Nabla, talvolta mostra errori gravi e persino “allucinazioni” che generano frasi inventate, potenzialmente fuorvianti.
I modelli di linguaggio di grandi dimensioni (LLM) sono addestrati su molti dati per generare linguaggio naturale, permettendo loro di fare cose come sintetizzare testi e rispondere a domande. Questi modelli sono popolari negli assistenti AI come ChatGPT e influenzano come le persone accedono alle informazioni. Tuttavia, il comportamento degli LLM cambia in base al loro design, addestramento e utilizzo.
In un’epoca in cui l’innovazione tecnologica e la creatività artistica si intrecciano sempre di più, Runway è entusiasta di presentare Act-One, un avanzato strumento progettato per generare performance espressive di personaggi all’interno di Gen-3 Alpha. Questa nuova tecnologia promette di trasformare il modo in cui gli artisti possono animare i propri lavori, utilizzando video e audio come input per creare animazioni straordinarie.
La “Macchina di Habermas“, sviluppata da Google DeepMind, rappresenta un approccio innovativo alla mediazione e alla gestione del consenso in contesti di gruppo, impiegando l’intelligenza artificiale per sintetizzare prospettive variegate. Basata sul modello linguistico avanzato Chinchilla, questa tecnologia si articola in due fasi: nella prima, le opinioni individuali vengono analizzate e sintetizzate in dichiarazioni collettive preliminari; nella seconda, i partecipanti esaminano e criticano queste dichiarazioni, affinando così il risultato finale attraverso il loro feedback.
Jürgen Habermas è un filosofo e sociologo tedesco, noto principalmente per il suo contributo alla teoria della comunicazione e alla filosofia politica, con una particolare attenzione al concetto di “razionalità comunicativa”. Nato nel 1929, Habermas è una figura di spicco della cosiddetta “Scuola di Francoforte”, una corrente filosofica e sociologica critica che ha avuto una forte influenza sulla riflessione teorica del XX secolo. Con le sue opere, ha esplorato come le strutture sociali e istituzionali influenzino la capacità delle persone di comunicare in modo autentico e libero, mirando alla creazione di una società democratica fondata sul dialogo e il consenso.
Un aspetto centrale del suo pensiero è l’idea che il linguaggio non serva solo a descrivere la realtà, ma anche a costruirla attraverso il consenso raggiunto in uno spazio pubblico ideale, dove la comunicazione dovrebbe essere libera da potere e manipolazione. Questo porta al concetto di “azione comunicativa”, in cui gli individui, attraverso il dialogo razionale e senza coercizione, possono raggiungere accordi basati su ragioni condivise.
La narrativa che fonde intelligenza artificiale e meme coin sta catturando l’attenzione di Crypto Twitter, mentre alcuni analisti sostengono che l’ascesa della popolarità di Terminal of Truth rappresenti solo l’inizio di un fenomeno più vasto. Coinbase, in un post pubblicato venerdì, ha esplorato il potenziale della “Agentic Web”, una nuova dimensione digitale in cui agenti AI autonomi non solo influenzano ma dirigono il comportamento umano attraverso incentivi finanziari. Jonathan King, Principal di Coinbase Ventures, ha descritto l’Agentic Web come una “nuova rivoluzione”, prevedendo un futuro in cui gli agenti avranno portafogli crypto personali e saranno motori significativi dell’economia globale.
Nvidia ha recentemente introdotto Sana, un modello AI che potrebbe cambiare le regole del gioco nell’arte generativa, soprattutto per coloro che non dispongono di macchine ad alte prestazioni. La chiave del successo di Sana risiede in una serie di innovazioni tecniche: grazie a un deep compression autoencoder è possibile ridurre la dimensione dei dati immagine a 1/32 dell’originale, mantenendo una qualità impeccabile. Questa innovazione, combinata con il modello linguistico Gemma 2 per la comprensione dei prompt, garantisce un output di altissima qualità su hardware relativamente economico, una mossa strategica per Nvidia nel conquistare una platea più ampia.(Sana Github)
L’intelligenza artificiale (AI) ha il potenziale di rivoluzionare il campo della radiologia diagnostica, ma affronta importanti ostacoli all’integrazione negli ambienti clinici. Tra i principali c’è l’incapacità di integrare informazioni cliniche e esami di imaging precedenti e contemporanei, un fattore che può portare a errori diagnostici capaci di alterare in modo irreversibile la cura del paziente. Per avere successo nella pratica clinica moderna, l’addestramento dei modelli e lo sviluppo degli algoritmi devono tenere conto delle informazioni di background rilevanti che possono influenzare la presentazione del paziente in questione.
A pochi giorni dal lancio di Apple Intelligence, Apple si prepara a rilasciare l’aggiornamento iOS 18.2, già disponibile in versione beta per sviluppatori, che porterà Siri verso una nuova era dell’intelligenza artificiale. Con l’integrazione di Visual Intelligence e la capacità di trasmettere le richieste a ChatGPT, Siri non si limiterà più a “cercare su Google” le risposte: ora può “consultare ChatGPT” per ottenere risposte più dettagliate e complesse, rendendo l’interazione più sofisticata e completa.