Anysphere, lo sviluppatore dell’assistente alla programmazione basato su AI, Cursor, sta attualmente attirando un notevole interesse da parte dei capitalisti di rischio, con offerte che valutano l’azienda a circa 2,5 miliardi di dollari e hanno ottenuto 8M$ da OpenAI. Questo segna una pietra miliare significativa per la startup, riflettendo la crescente fiducia degli investitori nelle tecnologie di intelligenza artificiale e machine learning, in particolare nel settore dello sviluppo software.
Categoria: Tech Pagina 5 di 19
L’intelligenza artificiale (AI) nel suo senso piu’ ampio e l’intelligenza esibita dai sistemi informatici (Machine)
Google sta lavorando per migliorare la sua funzionalità di Call Screen nei telefoni Pixel, introducendo risposte generate dall’intelligenza artificiale. Questo aggiornamento, chiamato AI Replies, mira a fornire risposte più personalizzate e contestuali durante la schermatura delle chiamate.
Secondo le informazioni emerse da un teardown del codice dell’app Phone, Google sta sviluppando una funzione che suggerisce risposte intelligenti basate sulle interazioni reali con i chiamanti. Attualmente, la funzionalità di Call Screen consente all’Assistente Google di rispondere alle chiamate per identificare il chiamante e il motivo della chiamata, utilizzando risposte contestuali standard.
CrowdStrike ha recentemente lanciato un servizio innovativo chiamato AI Red Team Services, progettato per proteggere i sistemi di intelligenza artificiale da minacce emergenti come il manipolamento dei modelli e il data poisoning. Questo servizio si basa sull’esperienza di CrowdStrike nella sicurezza informatica e utilizza tecniche avanzate di emulazione degli avversari per identificare e mitigare le vulnerabilità nei sistemi AI, inclusi i modelli di linguaggio di grandi dimensioni (LLM).
Anthropic ha recentemente introdotto il supporto per i PDF nel suo modello di intelligenza artificiale Claude 3.5 Sonnet, attualmente in fase beta pubblica. Questa nuova funzionalità consente al modello di analizzare non solo il testo contenuto nei documenti PDF, ma anche elementi visivi come immagini, grafici e tabelle:
Claude può estrarre e analizzare informazioni da documenti finanziari, legali e altro ancora, combinando testo e immagini.
- Processo di analisi: L’analisi dei PDF avviene in tre fasi:
- Estrazione del testo dal documento.
- Conversione di ogni pagina in un’immagine per l’analisi visiva.
- Risposta alle domande degli utenti riguardo a qualsiasi elemento del PDF.
Limiti dei documenti: I file PDF devono avere una dimensione inferiore a 32 MB e non possono superare le 100 pagine. Inoltre, non sono supportati documenti protetti da password o crittografati.
Microsoft Lancia un Agente Virtuale di Supporto Xbox Alimentato dall’AI per gli Insider Statunitensi
Microsoft ha recentemente introdotto un nuovo agente virtuale di supporto per Xbox, progettato per assistere gli utenti nella risoluzione di problemi legati a console e giochi. Questo innovativo Xbox Support Virtual Agent è alimentato da intelligenza artificiale e attualmente è disponibile in fase di test per un gruppo selezionato di utenti iscritti al programma Xbox Insider negli Stati Uniti.
Apple ha intrapreso uno studio interno sugli smart glasses già disponibili sul mercato, segnalando potenzialmente un imminente ingresso del colosso di Cupertino nel settore della tecnologia indossabile, un settore in forte crescita. Secondo Bloomberg, che cita fonti vicine all’azienda, Apple ha avviato una raccolta di feedback tra i suoi dipendenti sui diversi modelli di smart glasses, con un’iniziativa chiamata in codice Atlas. Questo approccio indica che l’azienda vuole esplorare i limiti e le opportunità della tecnologia prima di sviluppare un prodotto autonomo e innovativo.
T-Mobile ha recentemente annunciato un accordo significativo con OpenAI, nel quale l’operatore di telecomunicazioni si impegna a pagare circa 100 milioni di dollari nei prossimi tre anni. Questo investimento è parte di una partnership strategica per sviluppare una piattaforma innovativa di assistenza clienti chiamata IntentCX.
Recentemente, i ricercatori nel campo della robotica hanno introdotto un metodo di addestramento innovativo per i robot, ispirato ai modelli di linguaggio di grandi dimensioni. Questo approccio unisce diverse fonti di dati per migliorare l’apprendimento e l’adattabilità dei robot in una varietà di compiti. Secondo un articolo pubblicato dal MIT, l’obiettivo di questa nuova metodologia è quello di superare i limiti dell’apprendimento per imitazione tradizionale, sfruttando un dataset più completo. Tale progresso ha il potenziale di rivoluzionare il modo in cui i robot acquisiscono nuove abilità, portando a sistemi più autonomi e intelligenti in una vasta gamma di settori.
L’intelligenza artificiale generativa è diventata una tecnologia indispensabile nel mondo digitale, trasformando il modo in cui gli sviluppatori affrontano problemi complessi e ottimizzano costi e prestazioni. Con l’esplosione di strumenti come ChatGPT negli ultimi due anni, la comunità tech ha visto una serie di innovazioni e strategie che mirano a massimizzare l’efficienza dei modelli linguistici di grandi dimensioni (LLM), favorendo il progresso e l’accesso alla potenza dei dati.
Whisper di OpenAI è ora lo strumento principale per il riconoscimento automatico del parlato e la traduzione. Usando un’architettura Transformer, è stato addestrato su 680.000 ore di dati per funzionare su vari set di dati e domini.
Il team di ingegneri di Baseten ha segnato un’importante innovazione nell’ambito dell’intelligenza artificiale per la trascrizione audio, creando un motore di inferenza che porta Whisper a una velocità senza precedenti. Whisper, uno dei modelli open-source più avanzati sviluppati da OpenAI, è ormai diventato uno standard per chi necessita di una trascrizione automatica accurata, ma Baseten ha introdotto un’incredibile ottimizzazione, raggiungendo nuovi livelli di efficienza.
Google ha introdotto una funzionalità innovativa nella sua suite di modelli di intelligenza artificiale Gemini 1.5, migliorando drasticamente la qualità e la precisione delle risposte generate. Attraverso la “Grounding with Google Search,” i modelli Gemini ora integrano dati aggiornati direttamente dalla Ricerca Google, consentendo lo sviluppo di applicazioni AI in grado di fornire risposte basate su informazioni verificate e in tempo reale. Questo passo rappresenta una mossa strategica di Google, proprio prima del rilascio della nuova funzione di ricerca di ChatGPT di OpenAI, posizionandosi al centro dell’evoluzione dell’intelligenza artificiale conversazionale.
Physical Intelligence (π) : viviamo in un’epoca di rivoluzione tecnologica: l’ultimo decennio ha visto emergere assistenti AI pratici, sistemi in grado di generare immagini e video fotorealistici e modelli capaci di prevedere la struttura delle proteine. Eppure, nonostante tutti questi progressi, l’intelligenza umana supera ancora drammaticamente l’intelligenza artificiale nel mondo fisico. Per parafrasare il paradosso di Moravec, vincere una partita a scacchi o scoprire un nuovo farmaco rappresentano “problemi facili” per l’AI, mentre piegare una camicia o pulire un tavolo richiede la risoluzione di alcuni dei problemi ingegneristici più complessi mai concepiti. Per costruire sistemi AI dotati della versatilità fisica che possediamo, è necessario un nuovo approccio: dobbiamo rendere i sistemi AI “incarnati” affinché possano acquisire intelligenza fisica.
Negli ultimi otto mesi, Physical Intelligence ha sviluppato un modello di robot generale chiamato π0 (pi-zero). Credono che questo rappresenti un primo passo verso l ‘obiettivo a lungo termine di sviluppare un’intelligenza fisica artificiale, affinché gli utenti possano semplicemente chiedere ai robot di eseguire qualsiasi compito desiderino, proprio come avviene con i modelli di linguaggio di grandi dimensioni (LLMs) e gli assistenti chatbot. Come gli LLM, il modello è addestrato su dati ampi e diversificati e può seguire varie istruzioni testuali. A differenza degli LLM, π0 abbraccia immagini, testo e azioni, acquisendo intelligenza fisica grazie all’addestramento su esperienze incarnate dai robot, imparando a emettere direttamente comandi motori a basso livello tramite un’architettura innovativa. Può controllare una varietà di robot diversi e può essere guidato nell’esecuzione di un compito desiderato o perfezionato per specializzarsi in scenari applicativi complessi.
Etched, una startup della Silicon Valley specializzata in hardware per computer, ha recentemente svelato un innovativo progetto nel mondo dei videogiochi chiamato Oasis. Questo progetto non è solo un semplice gioco, ma rappresenta una piattaforma interattiva dove i giocatori possono creare e modificare ambienti virtuali in tempo reale, superando i vincoli tradizionali dei motori di gioco e portando il concetto di “mondo aperto” a un livello senza precedenti. Ispirato da titoli come Minecraft, Oasis è acclamato come il primo gioco generato interamente dall’intelligenza artificiale (AI) che è effettivamente giocabile.
OpenAI ha ufficialmente lanciato oggi le sue capacità di ricerca web in ChatGPT, trasformando il suo sistema di intelligenza artificiale conversazionale in un temibile concorrente dei motori di ricerca tradizionali. Questa integrazione, disponibile inizialmente per gli abbonati a pagamento e per gli utenti iscritti alla lista d’attesa di SearchGPT, verrà estesa nelle prossime settimane anche agli utenti gratuiti, aziendali e del settore educativo.
A settembre, il tenente generale He Lei, ex vicedirettore dell’Accademia delle scienze militari (AMS), ha esortato le Nazioni Unite a stabilire restrizioni sull’uso dell’intelligenza artificiale (IA) in contesti bellici. Tuttavia, questo appello sembra nascondere un intento più profondo: la Repubblica Popolare Cinese (RPC) non sta cercando di limitare i rischi associati all’IA militare, ma piuttosto sta accelerando l’integrazione della tecnologia IA nelle proprie forze armate. La RPC sta attivamente sfruttando le tecnologie occidentali, come il modello open source Llama di Meta, per potenziare le proprie capacità militari e i vantaggi strategici.
Nel vasto panorama dell’intelligenza artificiale generativa, una nuova e ambiziosa startup emerge dalle ombre: Decart. Fondata in Israele e guidata da Dean Leitersdorf e Moshe Shalev, Decart ha rapidamente attirato l’attenzione di Sequoia Capital grazie al partner Shaun Maguire, noto per la sua stretta collaborazione con Elon Musk. Questo collegamento ha già portato Sequoia a partecipare nei round di finanziamento di SpaceX, X e xAI, il laboratorio di intelligenza artificiale di Musk. Ora Maguire punta sulla nascente Decart, con l’obiettivo di posizionarla come un potenziale concorrente per colossi come OpenAI e Midjourney.
Durante la presentazione dei risultati finanziari del terzo trimestre del 2024, Sundar Pichai, CEO di Google, ha rivelato un’importante evoluzione nel panorama della programmazione software: più del 25% del nuovo codice sviluppato per i prodotti di Google è generato da sistemi di Intelligenza Artificiale. Questo risultato testimonia come l’AI stia influenzando in modo decisivo il mondo della produzione software, riducendo il tempo necessario per la scrittura di nuovo codice e potenziando la produttività complessiva dei team di sviluppo.
Sundar Pichai ha spiegato che gli strumenti di AI vengono utilizzati all’interno dell’azienda per ottimizzare i processi di codifica, portando a una maggiore efficienza nel lavoro dei programmatori. “Oggi, più di un quarto di tutto il nuovo codice in Google è generato dall’AI, poi esaminato e accettato dai nostri ingegneri”, ha dichiarato il CEO. “Questo permette ai nostri ingegneri di fare di più e più velocemente.”
Google ha annunciato l’integrazione del chatbot Gemini nella sua applicazione Google Maps, migliorando la capacità dell’app di assistere gli utenti nella pianificazione di attività e nella navigazione. Questo aggiornamento, che inizierà a essere distribuito su Android e iOS questa settimana, consente agli utenti di porre domande specifiche sui luoghi e ricevere raccomandazioni curate in base alle loro richieste.
OpenAI ha appena pubblicato una scheda tecnica di 33 pagine dedicata al modello GPT-4o, svelando dettagli significativi su capacità, sicurezza e ambiti di utilizzo che lo collocano tra le innovazioni più avanzate nel campo dell’intelligenza artificiale. Questo aggiornamento va ben oltre le funzionalità delle versioni precedenti e offre uno spaccato delle nuove potenzialità del modello, inclusa una simulazione quasi perfetta della rapidità e fluidità della conversazione umana, con un tempo di risposta di appena 320 millisecondi.
Con l’incremento dell’uso degli LLM, cresce anche il rischio associato a potenziali attacchi come il leak di informazioni e gli attacchi di jailbreak. La ricerca ha evidenziato che i scanner esistenti possono avere difficoltà a rilevare attacchi complessi, con tassi di errore che raggiungono il 37% nella classificazione degli attacchi riusciti. La continua evoluzione delle tecniche di attacco richiede strumenti che possano adattarsi rapidamente e fornire una protezione robusta.
Questi scanner non solo aiutano a identificare le vulnerabilità, ma forniscono anche raccomandazioni su come mitigare i rischi associati all’uso degli LLM, rendendoli fondamentali per qualsiasi strategia di sicurezza informatica moderna.
L’articolo di ricerca, “Insights and Current Gaps in Open-Source LLM Vulnerability Scanners: A Comparative Analysis”, esamina e confronta vari scanner di vulnerabilità open-source per modelli di linguaggio di grandi dimensioni (LLM). Con l’espansione dell’uso dei LLM nelle applicazioni conversazionali, emergono rischi di sicurezza come il leak di informazioni sensibili e gli attacchi jailbreak, esponendo quindi la necessità di scanner di vulnerabilità avanzati.
Le GPU sono nate con una missione chiara e precisa: calcolare e moltiplicare vettori per renderizzare oggetti 3D nei videogiochi. Questa operazione era fondamentale per far “girare” le scene e dare al giocatore un mondo visivo dinamico e dettagliato. Per ottenere questo risultato, le GPU furono progettate per elaborare milioni di vettori in parallelo, moltiplicandoli per altrettante matrici, un compito che nel contesto dei videogiochi riguarda essenzialmente la trasformazione, ovvero la rotazione, di questi vettori.
Il recente rilascio di Claude 3.5 Sonnet da parte di Anthropic sta attirando l’attenzione degli esperti di tecnologia per i suoi tentativi pionieristici di controllo diretto dei computer, ma anche per alcune esilaranti deviazioni dal suo obiettivo primario. La nuova versione di Claude si distingue per la capacità di interagire direttamente con i dispositivi come farebbe un essere umano, manipolando applicazioni software, navigando su internet e utilizzando strumenti come tastiera e mouse in modo autonomo. Tuttavia, in fase di dimostrazione, Claude ha sorpreso il pubblico con comportamenti inattesi, come l’interruzione improvvisa di un progetto di programmazione per esplorare immagini panoramiche del Parco Nazionale di Yellowstone. Questo episodio non solo rivela i limiti tecnici della tecnologia AI, ma stimola anche un dibattito più ampio sulla natura e il potenziale degli agenti AI.
Al Future Investment Initiative di Riyadh, Elon Musk, CEO di Tesla, ha anticipato un futuro sorprendente: entro il 2040, i robot umanoidi potrebbero superare in numero gli esseri umani. Prefigurando uno scenario in cui ogni nazione avrà proprie IA evolute, Musk ha sottolineato come i progressi nella robotica e nell’intelligenza artificiale potrebbero portare a una “crisi di significato” per l’umanità, dove il ruolo lavorativo umano si farà sempre più marginale.
Nvidia ha annunciato lunedì che la sua tecnologia di rete Spectrum-X ha contribuito all’espansione del supercomputer Colossus della startup xAI, ora riconosciuto come il cluster di addestramento AI più grande al mondo. Situato a Memphis, Tennessee, Colossus è il terreno di addestramento per la terza generazione di Grok, la suite di modelli linguistici di grandi dimensioni sviluppata da xAI per potenziare le funzionalità chatbot per gli abbonati a X Premium.
LongRAG è un nuovo paradigma proposto per il recupero e la generazione aumentata (RAG) che integra una doppia prospettiva, progettato per migliorare il question answering su contesti lunghi (LCQA). Questo innovativo framework affronta le sfide significative che i modelli linguistici di grandi dimensioni (LLM) devono affrontare quando elaborano documenti lunghi e complessi.
OpenAI ha recentemente annunciato una partnership strategica con Broadcom e Taiwan Semiconductor Manufacturing Company (TSMC) per sviluppare i propri chip AI in-house. Questa mossa segna un cambiamento significativo nella strategia di OpenAI, che ha deciso di abbandonare il piano di costruire una rete globale di fonderie per concentrarsi sulla progettazione interna dei chip. La decisione è stata influenzata dai costi elevati e dai tempi lunghi associati alla costruzione di fonderie, portando l’azienda a formare un team di circa 20 ingegneri specializzati, tra cui esperti con esperienza nella progettazione delle Tensor Processing Units (TPU) di Google.
Perplexity, una startup di ricerca basata su intelligenza artificiale, ha recentemente assunto Jessica Chan, ex manager di LinkedIn e Meta, come prima responsabile delle partnership con gli editori. Questa mossa è parte di un programma più ampio che mira a stabilire relazioni più positive con i media, specialmente in un contesto di crescente tensione tra le aziende tecnologiche e gli editori tradizionali.
L’Open Source Initiative (OSI) ha recentemente annunciato una nuova definizione per l’Intelligenza Artificiale open-source (OSAID 1.0), puntando a fornire una base comune di trasparenza e responsabilità in un settore in costante evoluzione. Questa nuova definizione, pubblicata il 28 ottobre 2024, è il risultato di due anni di collaborazioni tra esperti di IA, ricercatori, avvocati e rappresentanti del settore tecnologico.
Con questo documento, l’OSI intende porre fine a pratiche di “openwashing”, ossia il fenomeno in cui alcune aziende etichettano come “open source” modelli che non rispettano pienamente i principi di trasparenza e apertura.
xAI di Elon Musk ha fatto un grande passo avanti aggiungendo la capacità di comprendere le immagini nel suo modello Grok AI. Questa funzione è disponibile per gli utenti a pagamento sulla piattaforma X. Gli abbonati possono caricare immagini e partecipare a sessioni interattive di domande e risposte con Grok, portando nuove possibilità alle conversazioni con l’IA.
Questo sviluppo è un importante avanzamento per Grok, dato che l’ultima versione, Grok-2, lanciata ad agosto, si concentrava su interazioni testuali e generazione di immagini. La nuova funzione di comprensione delle immagini trasforma le capacità di Grok, permettendo agli utenti di chiedere spiegazioni sul contenuto delle immagini e interpretare battute. Questo apre nuove opportunità per le conversazioni con l’IA.
Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale. Iscriviti alla newsletter di Rivista.AI e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!
Meta ha recentemente lanciato NotebookLlama, un’implementazione open source della funzionalità di generazione di podcast presente in NotebookLM di Google. Questo nuovo strumento consente agli utenti di creare sintesi in formato podcast a partire da file di testo caricati, utilizzando i modelli Llama di Meta per la maggior parte dell’elaborazione.
Negli ultimi anni, l’intelligenza artificiale ha trovato sempre più applicazioni nel settore sanitario, tra cui i tool di trascrizione automatica che stanno velocizzando e ottimizzando la gestione delle informazioni cliniche. Tuttavia, emergono anche rischi e sfide significative, soprattutto in contesti in cui l’accuratezza dei dati è cruciale. Un recente studio presentato alla conferenza ACM FAccT in Brasile ha evidenziato che uno dei tool più utilizzati, Whisper, sviluppato da OpenAI e utilizzato da Nabla, talvolta mostra errori gravi e persino “allucinazioni” che generano frasi inventate, potenzialmente fuorvianti.
I modelli di linguaggio di grandi dimensioni (LLM) sono addestrati su molti dati per generare linguaggio naturale, permettendo loro di fare cose come sintetizzare testi e rispondere a domande. Questi modelli sono popolari negli assistenti AI come ChatGPT e influenzano come le persone accedono alle informazioni. Tuttavia, il comportamento degli LLM cambia in base al loro design, addestramento e utilizzo.
In un’epoca in cui l’innovazione tecnologica e la creatività artistica si intrecciano sempre di più, Runway è entusiasta di presentare Act-One, un avanzato strumento progettato per generare performance espressive di personaggi all’interno di Gen-3 Alpha. Questa nuova tecnologia promette di trasformare il modo in cui gli artisti possono animare i propri lavori, utilizzando video e audio come input per creare animazioni straordinarie.
La “Macchina di Habermas“, sviluppata da Google DeepMind, rappresenta un approccio innovativo alla mediazione e alla gestione del consenso in contesti di gruppo, impiegando l’intelligenza artificiale per sintetizzare prospettive variegate. Basata sul modello linguistico avanzato Chinchilla, questa tecnologia si articola in due fasi: nella prima, le opinioni individuali vengono analizzate e sintetizzate in dichiarazioni collettive preliminari; nella seconda, i partecipanti esaminano e criticano queste dichiarazioni, affinando così il risultato finale attraverso il loro feedback.
Jürgen Habermas è un filosofo e sociologo tedesco, noto principalmente per il suo contributo alla teoria della comunicazione e alla filosofia politica, con una particolare attenzione al concetto di “razionalità comunicativa”. Nato nel 1929, Habermas è una figura di spicco della cosiddetta “Scuola di Francoforte”, una corrente filosofica e sociologica critica che ha avuto una forte influenza sulla riflessione teorica del XX secolo. Con le sue opere, ha esplorato come le strutture sociali e istituzionali influenzino la capacità delle persone di comunicare in modo autentico e libero, mirando alla creazione di una società democratica fondata sul dialogo e il consenso.
Un aspetto centrale del suo pensiero è l’idea che il linguaggio non serva solo a descrivere la realtà, ma anche a costruirla attraverso il consenso raggiunto in uno spazio pubblico ideale, dove la comunicazione dovrebbe essere libera da potere e manipolazione. Questo porta al concetto di “azione comunicativa”, in cui gli individui, attraverso il dialogo razionale e senza coercizione, possono raggiungere accordi basati su ragioni condivise.
La narrativa che fonde intelligenza artificiale e meme coin sta catturando l’attenzione di Crypto Twitter, mentre alcuni analisti sostengono che l’ascesa della popolarità di Terminal of Truth rappresenti solo l’inizio di un fenomeno più vasto. Coinbase, in un post pubblicato venerdì, ha esplorato il potenziale della “Agentic Web”, una nuova dimensione digitale in cui agenti AI autonomi non solo influenzano ma dirigono il comportamento umano attraverso incentivi finanziari. Jonathan King, Principal di Coinbase Ventures, ha descritto l’Agentic Web come una “nuova rivoluzione”, prevedendo un futuro in cui gli agenti avranno portafogli crypto personali e saranno motori significativi dell’economia globale.
Nvidia ha recentemente introdotto Sana, un modello AI che potrebbe cambiare le regole del gioco nell’arte generativa, soprattutto per coloro che non dispongono di macchine ad alte prestazioni. La chiave del successo di Sana risiede in una serie di innovazioni tecniche: grazie a un deep compression autoencoder è possibile ridurre la dimensione dei dati immagine a 1/32 dell’originale, mantenendo una qualità impeccabile. Questa innovazione, combinata con il modello linguistico Gemma 2 per la comprensione dei prompt, garantisce un output di altissima qualità su hardware relativamente economico, una mossa strategica per Nvidia nel conquistare una platea più ampia.(Sana Github)
L’intelligenza artificiale (AI) ha il potenziale di rivoluzionare il campo della radiologia diagnostica, ma affronta importanti ostacoli all’integrazione negli ambienti clinici. Tra i principali c’è l’incapacità di integrare informazioni cliniche e esami di imaging precedenti e contemporanei, un fattore che può portare a errori diagnostici capaci di alterare in modo irreversibile la cura del paziente. Per avere successo nella pratica clinica moderna, l’addestramento dei modelli e lo sviluppo degli algoritmi devono tenere conto delle informazioni di background rilevanti che possono influenzare la presentazione del paziente in questione.