DeepSeek AI ha presentato DeepSeek-R1, un modello open source che si pone come un diretto concorrente del noto OpenAI-o1 nei compiti di ragionamento complesso. Questo traguardo è stato raggiunto grazie all’introduzione di un algoritmo innovativo chiamato Group Relative Policy Optimization (GRPO) e a un approccio multi-stage basato sul reinforcement learning (RL). La combinazione di queste tecniche ha consentito di superare molte delle limitazioni tradizionali nei modelli di intelligenza artificiale per il ragionamento avanzato.
Categoria: AI Pagina 1 di 14
L’ hub-per-una-copertura-completa-sullintelligenza-artificiale-e-lapprendimento-automatico
Con il rilascio di Janus Pro, il laboratorio cinese DeepSeek ha lanciato una sfida diretta a DALL-E 3, il modello generativo di immagini di punta di OpenAI. Janus Pro si distingue per essere un modello open-source che offre prestazioni superiori in benchmark chiave come GenEval e DPG-Bench, una mossa che potrebbe ridefinire gli equilibri tra i leader dell’intelligenza artificiale multimodale.
La società cinese DeepSeek, già al centro dell’attenzione per il rilascio del modello open-source R1, ha lanciato un secondo modello multimodale open-source, Janus Pro-7B, che promette di ridefinire gli standard nell’intelligenza artificiale. Il modello è stato reso disponibile su Hugging Face, una piattaforma leader per l’IA, con l’obiettivo dichiarato di offrire comprensione e generazione unificata. Secondo DeepSeek, il Janus Pro-7B supera i precedenti modelli multimodali unificati e compete, se non addirittura eccelle, rispetto alle prestazioni dei modelli specifici per singoli compiti. Questo lo rende un forte candidato per le applicazioni di prossima generazione nel campo multimodale.
DeepSeek says its newest AI model, Janus-Pro can outperform Stable Diffusion and DALL-E 3.
Already riding a wave of hype over its R1 “reasoning” AI that is atop the app store charts and shifting the stock market, Chinese startup DeepSeek has released another new open-source AI model: Janus-Pro.
Può analizzare o produrre solo immagini piccole a una risoluzione di 384×384, ma l’azienda afferma che la versione più grande, Janus-Pro-7b, ha superato modelli comparabili in due test di riferimento per l’IA.
Image: DeepSeek
Microsoft ha recentemente avviato una fase di test per una delle novità più promettenti della prossima versione di Windows 11, introducendo una funzionalità di ricerca alimentata dall’intelligenza artificiale. L’innovativa ricerca semantica, annunciata a ottobre, è ora disponibile per gli utenti Insider su build dedicate, e promette di semplificare l’esperienza di ricerca dei file locali, rendendola più intuitiva grazie all’uso di linguaggio naturale.
L’innovazione si inserisce nel contesto di una costante evoluzione delle funzionalità AI di Microsoft, che mirano a rendere l’interazione con il sistema operativo sempre più fluida e naturale. A differenza dei tradizionali motori di ricerca che richiedono comandi o parole chiave specifiche, questa nuova funzionalità consente agli utenti di esprimere ricerche più casuali e colloquiali, come se stessero chiedendo aiuto a un assistente virtuale.
Negli ultimi anni, i transformers hanno rappresentato il punto di riferimento per i modelli di intelligenza artificiale, dalla traduzione automatica alla modellazione linguistica, fino al riconoscimento delle immagini. Tuttavia, la loro egemonia potrebbe essere messa in discussione da due innovazioni che promettono di ridefinire il panorama dell’AI: le architetture “Titans” di Google e “Transformer Squared” sviluppata dalla startup giapponese Sakana. Questi nuovi modelli, ispirati al funzionamento del cervello umano, puntano a superare i limiti dei transformer tradizionali, rendendo i sistemi più efficienti, flessibili e intelligenti.
I transformers hanno trasformato l’AI grazie al meccanismo di attention, che consente di valutare il contesto di ogni elemento in una sequenza. Questa tecnologia ha introdotto la possibilità di elaborare dati in parallelo, rendendo obsoleti i recurrent neural networks (RNN), che lavoravano in modo sequenziale. Tuttavia, i transformers tradizionali hanno mostrato notevoli limiti in termini di scalabilità, adattabilità e memoria a lungo termine. Una volta addestrati, migliorare il loro funzionamento richiede enormi risorse computazionali o l’uso di strumenti esterni come i modelli LoRA o RAG.
Sembra una barzelletta: un gruppo di studenti e consulenti dell’Università di Berkeley tira fuori un modello di intelligenza artificiale di ragionamento avanzato, e il tutto con un budget inferiore a quello di una cena elegante a San Francisco. Non c’è trucco, non c’è inganno: il modello Sky-T1-32B è qui per scompigliare le carte e rendere obsoleti i costosi abbonamenti mensili di OpenAI.
Immaginate questo: OpenAI, con le sue decine di miliardi di dollari di investimenti, giustifica il costo di $200 al mese per un abbonamento ChatGPT Pro basato sul loro modello di ragionamento più avanzato, sostenendo che “è costoso allenare e mantenere queste meraviglie tecnologiche”. Poi arriva Novasky e fa lo stesso lavoro, o meglio, con appena $450. Il modello Sky-T1, che ricorda il primo tentativo di OpenAI nel campo del ragionamento (il modello “Strawberry”), supera quest’ultimo in alcune metriche e si piazza con disinvoltura sul podio delle prestazioni.
Il team non ha ancora rivelato una tempistica precisa per il lancio del nuovo generatore video, suggerendo che il progetto sia ancora in una fase iniziale di sviluppo. Al momento, gli sviluppatori stanno lavorando per “bilanciare velocità, costo e qualità dell’output,” come dichiarato nell’annuncio ufficiale.
Circa l’85% degli utenti preferisce le immagini create utilizzando il sistema di personalizzazione della piattaforma, che ora include mood board e profili multipli, secondo Midjourney. L’azienda prevede di ampliare ulteriormente queste funzionalità, combinando i mood board con capacità di riferimento stilistico.
La piattaforma introdurrà inoltre due modalità di generazione distinte: una opzione “in tempo reale” per risultati rapidi, simile alla funzione “imagine” di Meta, al doodle-to-image di Krea AI o al Realtime Canvas di Leonardo.
Google DeepMind ha recentemente annunciato la formazione di un nuovo team dedicato allo sviluppo di “world models”, sistemi di intelligenza artificiale progettati per simulare ambienti fisici complessi. Questa iniziativa, guidata da Tim Brooks ex co-responsabile del progetto Sora di OpenAI mira a rivoluzionare settori come lo sviluppo di videogiochi, l’addestramento di robot e l’avanzamento verso l’Intelligenza Artificiale Generale (AGI).
I “world models” rappresentano un’evoluzione significativa nell’ambito dell’IA, poiché consentono la creazione di ambienti digitali che rispecchiano le dinamiche del mondo reale. Questa capacità è fondamentale per sviluppare sistemi di IA in grado di comprendere e interagire con il mondo fisico in modo più naturale ed efficiente.L’obiettivo di DeepMind è utilizzare vasti insiemi di dati video e multimodali per addestrare questi modelli, migliorando così la comprensione e l’adattabilità dell’IA a scenari reali.
SandboxAQ, la startup fondata da Jack Hidary, ha recentemente annunciato un finanziamento di oltre 300 milioni di dollari, portando la valutazione pre-money dell’azienda a 5,3 miliardi di dollari.
Questo investimento è stato guidato da figure di spicco come Eric Schmidt, Marc Benioff, Jim Breyer e Yann LeCun, evidenziando l’interesse crescente verso le tecnologie emergenti che combinano calcolo quantistico e intelligenza artificiale.
SandboxAQ, nata come spin-off di Alphabet Inc. nel 2022, si dedica allo sviluppo di soluzioni innovative all’intersezione tra intelligenza artificiale e tecniche quantistiche. Sotto la guida di Hidary, l’azienda ha rapidamente attirato l’attenzione di investitori e partner strategici, ottenendo contratti governativi per soluzioni di cybersecurity resistenti al quantum e avviando programmi pilota di navigazione quantistica con l’aeronautica statunitense.
OpenAI ha concluso l’anno con una dimostrazione impressionante delle sue capacità, presentando o3, un nuovo modello di ragionamento che ha mostrato prestazioni eccezionali su benchmark complessi. Sebbene non sia ancora disponibile pubblicamente, il modello è già stato valutato da tester di sicurezza, che hanno avuto l’opportunità di analizzarne il potenziale.
Tra i risultati più sorprendenti, spicca il punteggio di o3 sul test semi-privato ARC-AGI, dove ha ottenuto un impressionante 75,7% (87,5% con una configurazione ad alta potenza di calcolo), superando di gran lunga le prestazioni del suo predecessore, o1. Inoltre, o3 ha raggiunto il 25% sul benchmark estremamente difficile FrontierMath — un balzo notevole rispetto al misero 2% ottenuto dai modelli precedenti solo a novembre. Questi risultati hanno indubbiamente suscitato molta attenzione, ma è importante considerare una nota di cautela.
Camel-AI, in collaborazione con istituti di ricerca di prestigio come il Shanghai AI Laboratory, l’Università di Oxford e KAUST, ha recentemente lanciato OASIS (Open Agent Social Interaction Simulations), un framework avanzato per la simulazione dei social media. Questo strumento è progettato per modellare le interazioni online su piattaforme come X (precedentemente Twitter) e Reddit, offrendo preziose intuizioni a progettisti di piattaforme, ricercatori e decisori politici interessati a comprendere il comportamento degli utenti nel mondo digitale.
Una delle caratteristiche distintive di OASIS è la sua capacità di scalare fino a un milione di agenti, superando di gran lunga i simulatori precedenti che gestivano solo poche migliaia di utenti. Questa scalabilità consente di replicare dinamiche sociali su larga scala, fornendo un ambiente più realistico per lo studio di fenomeni complessi come la diffusione della disinformazione, la polarizzazione dei gruppi e la formazione delle comunità nei network sociali.
Google ha recentemente introdotto una funzionalità innovativa nell’app Files, che consente agli utenti di interagire direttamente con i contenuti dei PDF attraverso l’assistente AI, Gemini. Questa integrazione rappresenta un significativo passo avanti nell’ottimizzazione della gestione dei documenti digitali su dispositivi mobili.
Per accedere a questa funzione, è necessario essere abbonati a Gemini Advanced e disporre di un dispositivo con Android 15 o versioni successive. Una volta soddisfatti questi requisiti, aprendo un PDF nell’app Files e attivando Gemini, apparirà l’opzione “Chiedi informazioni su questo PDF”. Selezionando questa opzione, l’utente può porre domande specifiche sul contenuto del documento, ricevendo risposte immediate e pertinenti. Questo elimina la necessità di scorrere manualmente pagine di testo alla ricerca di informazioni, migliorando l’efficienza e l’esperienza d’uso.
Non ci sono modelli più potenti della nuova serie o3, almeno secondo OpenAI. Ma, si sa, loro sono di parte. Dicono che questi nuovi modelli siano così brillanti da fare impallidire anche un campione di scacchi in un giorno di pioggia. O almeno così affermano le loro presentazioni in power point.
Prendiamo il famoso benchmark ARC-AGI. Chiunque lo guardi pensa subito a un test per selezionare astronauti o risolvere indovinelli della Settimana Enigmistica. Invece, sembra misurare quanto un’IA sia capace di pensare come un umano. E o3 non solo supera il test, ma si avvicina alle prestazioni umane con un 87,5%. Certo, non significa che l’IA sappia cucinare un arrosto senza bruciarlo, ma almeno potrebbe dirti con precisione quante calorie contiene dopo il disastro.
OpenAI sta lavorando intensamente per sviluppare la prossima generazione del suo modello di ragionamento avanzato, noto internamente come “o1”. Questo modello è progettato per impiegare più tempo nel processo decisionale, dedicandosi a un’analisi più profonda delle domande poste dagli utenti prima di fornire risposte. L’obiettivo è migliorare significativamente la qualità delle risposte nei campi più complessi come la codifica, la matematica e le scienze avanzate.
Google ha presentato un nuovo modello di intelligenza artificiale chiamato Gemini 2.0 Flash Thinking, progettato per affrontare domande complesse e spiegare i processi logici utilizzati per arrivare alla soluzione. Questo sistema sperimentale rappresenta un’importante evoluzione nell’IA cognitiva, ponendosi come potenziale concorrente diretto del modello di ragionamento o1 di OpenAI.
Instagram si prepara a lanciare nel 2025 una nuova funzionalità che promette di cambiare radicalmente il modo in cui i creatori di contenuti modificano e personalizzano i loro video. Questo strumento di editing basato sull’intelligenza artificiale generativa, alimentato dal modello Movie Gen AI di Meta, consentirà agli utenti di modificare quasi ogni aspetto dei loro video tramite semplici comandi di testo, aprendo nuove possibilità di creatività e facilità per i creatori di contenuti.
OpenAI ha annunciato il rilascio dell’API di o1, un aggiornamento significativo che ridefinisce il modo in cui gli sviluppatori interagiscono con i modelli di intelligenza artificiale. Questa evoluzione introduce funzionalità avanzate come prompt di sistema, messaggi specifici per sviluppatori, chiamate di funzioni dinamiche, output strutturati e il rivoluzionario parametro “sforzo di ragionamento”. Chi non conosce il miglior film di tutti i tempi, Balle Spaziali : “Che lo sforzo sia con voi!”
YouTube sta collaborando con la Creative Artists Agency (CAA) per offrire agli artisti e ai creatori di contenuti un potente strumento di gestione delle loro immagini generate tramite intelligenza artificiale. Questa iniziativa mira a proteggere la loro identità digitale, permettendo di individuare e rimuovere contenuti che utilizzano il loro volto o voce senza autorizzazione. Il progetto sarà testato con celebrità e atleti a partire dal prossimo anno, per poi essere esteso ai principali creatori di YouTube e altri professionisti creativi.
YouTube sta introducendo una nuova funzionalità che consente ai creatori di contenuti di autorizzare aziende terze a utilizzare i loro video per addestrare modelli di intelligenza artificiale (AI). Questa opzione, disattivata di default, permette a chiunque voglia partecipare di abilitare l’accesso attraverso YouTube Studio. L’obiettivo dichiarato è offrire ai creatori nuove opportunità di guadagno nell’era dell’intelligenza artificiale.
Google ha annunciato il lancio di Veo 2, la nuova versione del suo modello video avanzato progettato per competere con Sora. L’azienda sostiene che questa versione rappresenti un passo avanti significativo nella comprensione della fisica del mondo reale, con un’attenzione particolare ai movimenti e alle espressioni umane. L’intelligenza artificiale di Veo 2 è progettata per interpretare e replicare meglio le dinamiche naturali, rendendo le simulazioni visive e le animazioni molto più realistiche.
OpenAI ha introdotto ChatGPT Projects, una piattaforma organizzativa che ridefinisce la gestione dei dati personalizzati, conversazioni, GPT su misura, codici e chat, rendendoli facilmente condivisibili. Kevin Weil, Chief Product Officer di OpenAI, ha annunciato entusiasta la novità durante una diretta streaming: “Stiamo lanciando qualcosa che ci avete richiesto da tempo: Projects in ChatGPT. Tutti gli strumenti che conoscete ora sono parte dei Projects. Oppure potete usare Projects senza le funzioni di ChatGPT.“
YouTube sta ampliando l’orizzonte della condivisione dei contenuti attraverso un importante aggiornamento tecnologico. La piattaforma ha esteso il suo servizio di doppiaggio automatico basato sull’intelligenza artificiale a “centinaia di migliaia di canali” iscritti al Programma Partner, specializzati in contenuti educativi e informativi. Questo strumento promette di abbattere le barriere linguistiche, rendendo accessibili video di qualità a un pubblico internazionale.
OpenAI ha finalmente lanciato la Modalità Voce Avanzata con Visione per ChatGPT, presentata sette mesi fa. Questa nuova funzionalità permette agli utenti di ChatGPT Plus, Team e Pro di interagire in tempo reale attraverso il riconoscimento visivo utilizzando l’app ChatGPT. Basta puntare la fotocamera del telefono su un oggetto per ricevere risposte immediate e contestuali.
Android XR, un nuovo sistema operativo di realtà mista progettato per visori e occhiali smart, è la grande scommessa di Google per alimentare una nuova generazione di dispositivi di realtà aumentata che sembrano realizzare tutti i nostri sogni più sfrenati su cosa possano essere davvero gli occhiali smart.
Fujitsu ha annunciato un’innovazione rivoluzionaria nel campo dell’analisi video: un agente AI progettato per ottimizzare i processi nelle realtà operative di prima linea. Sfruttando dati video spaziali, immagini riprese da telecamere sul posto di lavoro e documentazione scritta come regolamenti e manuali, l’agente AI genera report e suggerimenti per migliorare la sicurezza e l’efficienza. Questa tecnologia sarà integrata nel servizio di intelligenza artificiale “Fujitsu Kozuchi“, con un ambiente di prova disponibile già nel 2024 e una implementazione interna pianificata per gennaio 2025.
AI16z DAO sta riscrivendo le regole su come le comunità crypto investono, governano e operano, sia per divertimento che per sfruttare il potenziale dell’intelligenza artificiale nel prendere decisioni finanziarie basate sui dati. Questo progetto di organizzazione autonoma decentralizzata (DAO) ha l’obiettivo di “capovolgere a16z,” una delle principali società di venture capital della Silicon Valley, ridefinendo il concetto di venture capitalist nell’era dell’IA.
In un mondo dove l’intelligenza artificiale sembra essere l’unico argomento di conversazione, Hyperbolic ha deciso di alzare la posta, raccogliendo ben 12 milioni di dollari in un round di finanziamento Series A. E chi lo ha fatto? Nientemeno che Variant e Polychain Capital, con una schiera di investitori che include Lightspeed Faction e Bankless Ventures. È come se avessero deciso di costruire un castello di sabbia in un mare di opportunità, ma con un budget decisamente più sostanzioso.
Nel panorama in continua evoluzione della programmazione, dove ogni riga di codice è una possibilità di successo o un potenziale fallimento, Google ha lanciato un nuovo strumento destinato a cambiare il modo in cui i programmatori interagiscono con il codice difettoso. Si chiama Jules, ed è un agente basato su intelligenza artificiale progettato per aiutare gli sviluppatori a risolvere i bug nel codice, con un focus particolare su Python e Javascript. Questa innovazione arriva in un momento in cui la necessità di velocizzare lo sviluppo e migliorare la qualità del software è più pressante che mai.
Con l’annuncio di Gemini 2.0, Google DeepMind si lancia in un’agguerrita competizione contro OpenAI, supportata da Microsoft. Il nuovo modello rappresenta la più sofisticata espressione dell’intelligenza artificiale sviluppata da Alphabet , progettata per ampliare le applicazioni grazie a capacità agentiche avanzate e processi multimodali.
Apple e Broadcom stanno lavorando insieme per sviluppare il primo chip server interno di Apple, progettato esclusivamente per l’intelligenza artificiale. Questo progetto, denominato internamente “Baltra”, potrebbe essere pronto per la produzione di massa entro il 2026, secondo fonti vicine alla questione riportate da The Information.
OpenAI ha sganciato la sua ultima bomba tecnologica: Sora, il modello di IA per la creazione di video a partire da testo, lanciato ufficialmente lunedì come parte della maratona di 12 giorni di annunci chiamata “Ship-mas”. Sora è disponibile ora su Sora.com per gli abbonati di ChatGPT negli Stati Uniti e in “molti altri Paesi”. La novità? Un modello aggiornato chiamato Sora Turbo, che eleva ulteriormente le potenzialità di questa tecnologia, permettendo di creare video da testo, animare immagini e remixare clip esistenti.
UPDATED
Il nuovo generatore di immagini “Aurora” di X è sparito. L’opzione “Grok 2 + Aurora” è scomparsa dal menu di selezione del modello di Grok solo un giorno dopo che è apparsa, riporta Engadget, sostituita invece da “Grok 2 + FLUX beta“. Il proprietario di X, Elon Musk, ha scritto ieri che il modello fotorealistico e in gran parte non restrittivo è un “generatore di immagini interno” in versione beta. Aggiornamento: Aggiunti dettagli di test.
X ha svelato “Aurora”, il suo nuovo generatore di immagini AI, che promette un livello di fotorealismo mai visto prima. Questo modello avanzato è integrato nella nuova opzione “Grok 2 + Aurora beta” ed è già disponibile per gli utenti, anche se solo per un numero limitato di query prima di incappare nel paywall di X Premium.
Dunque, l’intelligenza artificiale sta cambiando il mondo, e non solo correggendo le vostre email mal scritte (non che questa newsletter ne avesse bisogno, capiamoci). È qualcosa di più profondo, tipo prevedere il meteo con precisione millimetrica — il che potrebbe sembrare meno eccitante di un film di supereroi, ma pensateci: se sapete che lunedì pioverà, potreste persino annullare quella terribile riunione all’aperto e salvare la vostra sanità mentale.
Nel panorama sempre più affollato delle tecnologie AI generative, Google ha appena lanciato Veo, un modello avanzato per la creazione di video ad alta qualità, facendo un passo importante verso l’integrazione di AI nei flussi di lavoro aziendali. Disponibile attraverso la piattaforma Vertex AI, Veo promette di rivoluzionare il modo in cui le aziende sviluppano contenuti video. Annunciato per la prima volta a maggio, Veo ha battuto sul tempo la concorrenza di OpenAI, che aveva mostrato il suo modello Sora solo qualche mese prima, lanciandosi in anteprima privata su Vertex AI.
Nel mondo della tecnologia, ogni piccola innovazione ha il potenziale di cambiare le regole del gioco, e l’ultima mossa di o1 con il suo annuncio di “reinforcement fine-tuning” non fa eccezione. Questo aggiornamento consente agli sviluppatori di personalizzare il modello di intelligenza artificiale per adattarlo meglio ai propri casi d’uso, una novità che apre a nuove possibilità per l’intera comunità di sviluppatori, dalla creazione di soluzioni altamente specializzate a quella di esperienze personalizzate per gli utenti finali.
Hailuo AI MiniMax ha appena rilasciato una rivoluzionaria innovazione nel campo dell’intelligenza artificiale e della creatività digitale: il modello I2V-01-Live, progettato per animare le illustrazioni artistiche con un realismo e una fluidità mai visti prima. Questa tecnologia rappresenta un passo avanti significativo nel mondo della generazione di contenuti dinamici, trasformando opere d’arte statiche in esperienze immersive e interattive.
Mentre OpenAI continua a stuzzicare l’attesa per Sora, il suo promesso strumento di generazione video, Tencent ha preso tutti in contropiede lanciando Hunyuan Video, un modello AI open-source che ha già dimostrato di competere con le soluzioni video di punta sul mercato.
Uljan Sharka, il Ceo di iGenius, ha annunciato il lancio di Colosseum, un supercomputer italiano progettato per rivoluzionare il settore dell’Intelligenza Artificiale. La società, già conosciuta per il suo contributo nel campo dell’AI, ha annunciato il lancio del SuperPOD Nvidia DGX, equipaggiato con i potenti superchip Nvidia Grace Blackwell, destinato a supportare modelli avanzati di AI per clienti nei settori finanziari, sanitari e pubblici a livello globale.