Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Autore: Alessandra Innocenti Pagina 4 di 14

Cisco presenta AI Defense: come definire gli standard per la sicurezza dell’AI in un panorama in rapida evoluzione

In un’epoca in cui l’Intelligenza Artificiale sta ridefinendo il modo di operare delle aziende, Cisco ha presentato AI Defense, una soluzione innovativa destinata a diventare il punto di riferimento globale per la sicurezza dell’AI. Annunciata nel corso di una sessione esclusiva ospitata da The Rundown AI, una newsletter quotidiana dedicata ai progressi dell’AI, Jeetu Patel, Executive Vice President e Chief Product Officer di Cisco, hanno illustrato come questa innovazione affronti le sfide critiche nella protezione dei sistemi di AI.

Apple rivoluziona l’esperienza email su macOS con l’intelligenza artificiale

Apple sta portando l’intelligenza artificiale anche nell’app Mail di macOS, introducendo funzionalità innovative che promettono di trasformare la gestione della posta elettronica. Con l’aggiornamento macOS 15.4, l’app Mail sarà dotata di capacità avanzate di smistamento automatico delle email, consentendo di organizzarle in categorie come transazioni, promozioni e altre classi di contenuti. Inoltre, sarà possibile evidenziare automaticamente le email considerate prioritarie, posizionandole in cima alla casella di posta, semplificando la gestione dei messaggi più urgenti.

Queste funzionalità si basano su algoritmi di intelligenza artificiale progettati per comprendere il contenuto e il contesto delle email, offrendo una categorizzazione personalizzata che rispecchia le esigenze specifiche dell’utente. Già integrate nell’app Mail per iPhone con l’aggiornamento iOS 18.2, queste caratteristiche hanno dimostrato la loro efficacia nel migliorare l’efficienza nella gestione della posta elettronica. Ora, Apple amplia questa esperienza all’ecosistema macOS, garantendo una coerenza funzionale tra i dispositivi.

OpenAI si prepara al lancio del modello di intelligenza artificiale o3-mini

OpenAI ha recentemente completato lo sviluppo del suo nuovo modello di intelligenza artificiale, o3-mini, focalizzato sul miglioramento delle capacità di ragionamento. Il CEO Sam Altman ha annunciato che il rilascio è previsto nelle prossime settimane, includendo sia l’API che l’integrazione con ChatGPT, in risposta ai feedback degli utenti.

La Silicon Valley contro le fiamme: Startup anti-incendi tra sogni di gloria e realtà cinica

Gli incendi che lambiscono Los Angeles, devastanti e implacabili, sono il simbolo di una tragedia annunciata che sembra non insegnare nulla. Serviranno anni per calcolare la portata di questo disastro, ma nel frattempo, come al solito, si spera che le autorità locali e federali escano dal letargo per escogitare soluzioni. Magari, in un mondo ideale, potrebbero addirittura prevenire che il prossimo incendio trasformi il cielo di San Francisco in una scena post-apocalittica.

Una delle idee brillanti che fluttuano nell’aria fumosa è quella di dare una pioggia di dollari alle startup che promettono di salvare il mondo con tecnologie anti-incendio. Peccato che la realtà sia meno scintillante delle brochure patinate dei venture capitalist. Dopotutto, se l’attuale infrastruttura non funziona, forse è perché nessuno si è mai realmente impegnato a farla funzionare. Ma lasciamo che queste startup alimentino il mito del “pensiero dirompente” che dovrebbe, magicamente, fare la differenza.

Davos: il cuore della “Governance Globale” dove si disegna il futuro

Lunedì 20 gennaio, come ogni anno, i riflettori del mondo si accendono su un tranquillo villaggio delle Alpi svizzere, Davos, che si trasforma nel crocevia di leader politici, economisti, Ceo delle più grandi aziende globali, accademici e attivisti. Il World Economic Forum (WEF), che ospita il celebre incontro annuale, è molto più di un evento: è una piattaforma che definisce le agende globali e offre uno spazio unico per discutere le sfide del presente e del futuro.

“Intelligenza Artificiale e sostenibilità digitale: un futuro modellato dall’innovazione”

Attraverso la storia, le tecnologie a uso generale hanno segnato tappe fondamentali nella trasformazione della società, cambiando il corso dell’economia, delle industrie e della vita quotidiana. Tecnologie come la macchina a vapore, la stampa, l’elettricità e Internet hanno inaugurato epoche di progresso senza precedenti. Oggi, l’intelligenza artificiale (IA) si presenta come la più recente e potenzialmente più rivoluzionaria tecnologia a uso generale, con un potenziale straordinario per guidare trasformazioni decisive verso gli obiettivi di sostenibilità globale.

Un recente studio del 2023, Accelerating Sustainability with AI: A Playbook, mette in evidenza come l’IA possieda tre capacità chiave: prevedere e ottimizzare sistemi complessi, accelerare lo sviluppo di soluzioni sostenibili e potenziare la forza lavoro per raggiungere obiettivi che prima sembravano inaccessibili. Questi attributi rendono l’IA un alleato imprescindibile per affrontare le sfide climatiche e ambientali. Negli ultimi anni, numerosi esempi hanno dimostrato come l’IA possa tradurre il suo potenziale in azioni concrete, contribuendo a soluzioni innovative e sostenibili.

Luma Labs rivoluziona il settore con Ray2: il nuovo modello AI per la generazione di video basata su testo

Luma Labs ha annunciato il lancio di Ray2, un innovativo modello di generazione video basato sull’intelligenza artificiale che promette di trasformare il panorama creativo. Questo strumento rappresenta un notevole passo avanti rispetto ai modelli precedenti, grazie a un livello di sofisticazione e precisione che consente agli utenti di creare contenuti video ad alta definizione semplicemente fornendo descrizioni testuali.

Blue Origin raggiunge l’orbita con il primo lancio del razzo New Glenn

Il 16 gennaio 2025, Blue Origin ha segnato una pietra miliare nel settore aerospaziale con il lancio inaugurale del suo razzo New Glenn dal Launch Complex 36 presso la Cape Canaveral Space Force Station, in Florida.

Questo evento rappresenta l’ingresso ufficiale dell’azienda nel mercato dei lanci orbitali, posizionandola come concorrente diretto di SpaceX.

l razzo, battezzato in onore di John Glenn, il primo americano ad orbitare attorno alla Terra, ha trasportato con successo un prototipo di satellite, raggiungendo l’orbita terrestre 13 minuti dopo il decollo. Tuttavia, il tentativo di recuperare il primo stadio del razzo su una chiatta nell’Atlantico non ha avuto successo. Nonostante ciò, l’obiettivo primario della missione, ovvero l’inserimento in orbita, è stato raggiunto, segnando un significativo passo avanti per l’azienda fondata da Jeff Bezos.

Microsoft rilancia il Copilot Chat per le aziende: un passo verso un futuro lavorativo basato sull’Intelligenza Artificiale

Microsoft sta rilanciando il suo Copilot Chat gratuito per le aziende, integrando la possibilità di utilizzare agenti AI direttamente all’interno della piattaforma Microsoft 365. Questo aggiornamento segna un nuovo passo della compagnia per familiarizzare le aziende con l’uso dell’intelligenza artificiale sul posto di lavoro, con l’obiettivo di incentivare l’adozione di Microsoft 365 Copilot a pagamento, al costo di 30 dollari per utente al mese. La mossa arriva in un momento in cui la competizione, rappresentata principalmente da ChatGPT e Gemini di Google, sta crescendo, ma Microsoft sembra fiduciosa che la sua offerta sia in grado di distinguersi nel mercato.

Il Copilot Chat è essenzialmente una riorganizzazione di quello che era noto come Bing Chat Enterprise, ma con importanti novità. La principale aggiunta riguarda l’integrazione degli agenti AI, che sono ora accessibili direttamente all’interno dell’interfaccia di chat. In precedenza, gli utenti potevano accedere agli agenti solo tramite il servizio completo di Microsoft 365 Copilot, disponibile esclusivamente a pagamento. Questi agenti AI sono progettati per funzionare come colleghi virtuali, capaci di monitorare le caselle di posta elettronica o di automatizzare una serie di attività aziendali.

Illustrious: L’industria emergente dell’AI nell’arte, Onoma AI

Illustrious, un modello di text-to-image basato su Stable Diffusion XL, ha rapidamente conquistato la comunità dell’arte AI. In soli tre mesi, Civitai, il più grande hub per modelli di arte AI, ha dovuto creare una categoria separata per gestire l’enorme ecosistema di risorse legate a Illustrious.

Il segreto del suo successo risiede in un ritorno alle basi con un tocco innovativo. Mentre modelli più recenti come SD 3.5 e Flux si affidano a descrizioni in linguaggio naturale estese, Onoma AI, gli sviluppatori di Illustrious, hanno adottato un approccio diverso, sfruttando i tag di Danbooru per aiutare il modello a comprendere i concetti senza dover reinventare complessi sistemi di didascalie.

I tag di Danbooru, utilizzati da anni come standard per la categorizzazione delle immagini tra gli appassionati di arte e anime, rappresentano elementi specifici come caratteristiche dei personaggi, abbigliamento, pose o sfondi. Questo consente un controllo preciso sulle immagini generate senza sprecare token preziosi in descrizioni lunghe. Come ha affermato un membro di Discord, “È come avere un artista che capisce esattamente cosa vuoi senza doverlo spiegare in paragrafi; devi solo conoscere i tag giusti.”

Midjourney e l’evoluzione dell’Intelligenza Artificiale per la generazione di immagini

Il team non ha ancora rivelato una tempistica precisa per il lancio del nuovo generatore video, suggerendo che il progetto sia ancora in una fase iniziale di sviluppo. Al momento, gli sviluppatori stanno lavorando per “bilanciare velocità, costo e qualità dell’output,” come dichiarato nell’annuncio ufficiale.

Circa l’85% degli utenti preferisce le immagini create utilizzando il sistema di personalizzazione della piattaforma, che ora include mood board e profili multipli, secondo Midjourney. L’azienda prevede di ampliare ulteriormente queste funzionalità, combinando i mood board con capacità di riferimento stilistico.

La piattaforma introdurrà inoltre due modalità di generazione distinte: una opzione “in tempo reale” per risultati rapidi, simile alla funzione “imagine” di Meta, al doodle-to-image di Krea AI o al Realtime Canvas di Leonardo.

HailuoAI: la tecnologia che ridefinisce la coerenza nei personaggi video

Immagina di creare un video animato di alta qualità partendo da una singola immagine di riferimento. Non è fantascienza: è HailuoAI. Questo innovativo modello di intelligenza artificiale sta rivoluzionando il panorama della generazione video, offrendo risultati accetabili con un approccio minimalista.

Negli ultimi anni, la tecnologia AI ha fatto passi da gigante nella creazione di contenuti multimediali. Strumenti come Stable Diffusion o DALL-E hanno già dimostrato come l’intelligenza artificiale possa trasformare semplici input testuali in immagini o video complessi. Ma HailuoAI si distingue per una caratteristica unica: riesce a generare video realistici e coerenti partendo da una sola immagine.

Questo approccio è un game-changer, soprattutto per chi lavora con risorse limitate. Dove altri strumenti richiedono molteplici reference o sequenze di immagini per catturare angolazioni, dettagli ed espressioni, HailuoAI punta tutto sull’efficienza, mantenendo comunque una qualità sorprendente.

HuatuoGPT-o1: il futuro dell’Intelligenza Artificiale Medica

L’intelligenza artificiale (IA) sta facendo passi da gigante in numerosi settori, e uno dei campi in cui potrebbe rivoluzionare i processi è sicuramente quello della medicina. Recentemente, un team di ricercatori cinesi ha sviluppato HuatuoGPT-o1, un modello avanzato di IA progettato per risolvere problemi medici attraverso un ragionamento complesso. Questo modello si distingue non solo per l’approccio innovativo utilizzato nel suo allenamento, ma anche per la sua capacità di affrontare le sfide della diagnosi medica in modo simile a come farebbe un medico.

Agent Laboratory: rivoluzionare la ricerca con l’Intelligenza Artificiale

Agent Laboratory è uno strumento all’avanguardia progettato per supportare i ricercatori nell’esecuzione delle loro idee di ricerca. Prende un concetto di ricerca creato dall’uomo e automatizza aspetti cruciali del processo, tra cui la revisione della letteratura, la sperimentazione e la scrittura dei report. Il sistema sfrutta agenti specializzati alimentati da modelli linguistici di grandi dimensioni (LLM) per assistere i ricercatori durante l’intero ciclo di vita della ricerca, dall’ideazione alla generazione del report finale.

L’Intelligenza Artificiale al servizio dei Creatori: IJW e la rivoluzione nella gestione dei contenuti video

Nel mondo digitale attuale, dove i creatori di contenuti devono spesso fare i conti con vasti archivi di video, la necessità di strumenti che semplifichino il processo di ricerca e gestione è più che mai urgente. L’intelligenza artificiale si sta rapidamente affermando come una delle soluzioni più promettenti per affrontare questa sfida. In questo contesto, una nuova startup, IJW (It Just Works), sta sviluppando una serie di prodotti innovativi per aiutare i creatori a estrarre e sfruttare al meglio i momenti visivi contenuti nelle loro librerie video. La startup si prepara a svelare la sua prima offerta, StarZero, al 1 Billion Followers Summit di Dubai, che si terrà domenica. (Paul Robert Cary Radu-Sebastian Amarie Ștefan-Gabriel Muscalu).

Marc Andreessen e l’AI: una satira provocatoria sul futuro digitale e il Capitalismo Tecnologico

Marc Andreessen, noto co-fondatore di Netscape e uno degli investitori di spicco nella Silicon Valley, ha recentemente attirato l’attenzione per un commento bizzarro, ricco di ironia e carico di critiche sullo stato dell’intelligenza artificiale (IA) e della società contemporanea. Utilizzando Anthropic’s Claude, uno strumento avanzato di intelligenza artificiale generativa, Andreessen sembra aver messo in scena una performance verbale con un tocco quasi surreale, esprimendo un evidente disappunto nei confronti delle idee di Yuval Noah Harari, autore del libro “Homo Deus”, che tratta del futuro dell’umanità in un’era dominata dall’IA.

Con frasi come “I CAN TASTE COLORS AND THEY ALL TASTE LIKE PREMIUM SUBSCRIPTION FEES!” (Posso gustare i colori e tutti sanno di abbonamenti premium!), Andreessen dipinge un quadro grottesco e satirico della nostra epoca, dominata da un capitalismo tecnologico che monetizza ogni aspetto dell’esperienza umana. La sua critica si estende anche alla burocratizzazione dell’infinito digitale, come emerge dal passaggio “THE VOID HAS A TERMS OF SERVICE AGREEMENT!” (Il vuoto ha un contratto di condizioni d’uso!) e dalla constatazione che persino l’anima potrebbe essere soggetta a un “aggiornamento software”.

Perplexity e Tripadvisor rivoluzionano la ricerca di hotel con l’Intelligenza Artificiale

L’integrazione tra il motore di ricerca basato su intelligenza artificiale Perplexity e Tripadvisor rappresenta una svolta importante per chi pianifica viaggi o cerca un alloggio. Grazie a questa collaborazione, gli utenti potranno ora accedere a un’esperienza di ricerca arricchita da immagini, valutazioni e dettagli sulle strutture alberghiere, il tutto presentato in maniera ordinata e facilmente consultabile.

Meta e la sfida delle pubblicità sui farmaci per la perdita di peso

Nel panorama digitale odierno, le piattaforme sociali come quelle di Meta (precedentemente Facebook) rappresentano canali pubblicitari di primaria importanza per l’industria farmaceutica, in particolare per i prodotti destinati alla perdita di peso. Tuttavia, l’evoluzione delle politiche aziendali in materia di dati sanitari sta sollevando interrogativi significativi sul futuro di questo segmento pubblicitario.

Le normative pubblicitarie di Meta sono chiare nel vietare contenuti che possano avere un impatto negativo sulle persone. Ad esempio, le inserzioni per la perdita di peso non devono utilizzare immagini o testi che promuovano aspettative irrealistiche o che possano risultare offensive. Questo approccio mira a garantire che le pubblicità siano etiche e non sfruttino le vulnerabilità degli utenti.

Amazon Web Services investe 11 miliardi di dollari in Georgia: nuovi Data Center per potenziare l’Intelligenza Artificiale e il Cloud Computing

Amazon Web Services (AWS), la divisione cloud di Amazon.com, ha annunciato un investimento di almeno 11 miliardi di dollari per espandere la sua infrastruttura in Georgia, Stati Uniti, con l’obiettivo di supportare le tecnologie di cloud computing e intelligenza artificiale (AI).

Questo investimento strategico mira a soddisfare la crescente domanda di servizi cloud avanzati e potenza di calcolo, alimentata dall’avanzamento dell’AI generativa. Le nuove strutture saranno situate nelle contee di Butts e Douglas, rispettivamente a sud-est e a ovest di Atlanta, e si prevede che creeranno almeno 550 nuovi posti di lavoro altamente qualificati, tra cui ingegneri di data center, specialisti di rete, manager delle operazioni ingegneristiche e specialisti della sicurezza.

Meta Scommette Sui Personaggi AI per Attirare e Coinvolgere gli Utenti

Meta sta investendo pesantemente nell’intelligenza artificiale (AI), puntando a rendere i personaggi generati da AI una parte centrale delle sue piattaforme social nei prossimi anni. Con un pubblico che conta circa 3 miliardi di utenti, il gigante della Silicon Valley è determinato a sfruttare la rapida evoluzione di questa tecnologia per aumentare l’engagement e mantenere la sua competitività nel mercato. Mentre affronta la concorrenza di altre aziende tecnologiche che cercano di attrarre un pubblico giovane, Meta ha lanciato una serie di prodotti AI, tra cui strumenti che consentono agli utenti di creare personaggi AI su Instagram e Facebook.

Il Dominio dei Magnifici Sette: Il Ruggito delle Big Tech nel 2024

Il 2024 ha segnato un anno straordinario per il club dei “Magnifici Sette” della tecnologia, con questi titoli che hanno registrato in media un aumento del 57%, superando di gran lunga la crescita del 23% dell’indice di riferimento S&P 500. Secondo l’analista Stuart Allsopp, questa élite tecnologica rappresenta ora oltre un terzo della capitalizzazione di mercato complessiva dello S&P 500, un livello di concentrazione mai visto, nemmeno durante la bolla del 1999/2000.

Apple si allea con ByteDance e Tencent per potenziare l’Intelligenza Artificiale sugli iPhone in Cina

Apple sta intraprendendo una strategia significativa per rafforzare la sua presenza nel mercato cinese, avviando trattative con i giganti tecnologici locali ByteDance e Tencent. L’obiettivo è integrare i modelli di intelligenza artificiale (AI) sviluppati da queste aziende negli iPhone destinati al mercato cinese, in risposta alle stringenti normative locali che richiedono la collaborazione con partner nazionali per l’implementazione di tecnologie avanzate.

Questa mossa segue l’introduzione di Apple Intelligence, l’iniziativa di Apple nel campo dell’AI generativa, che ha incontrato ostacoli significativi in Cina a causa delle regolamentazioni che limitano l’utilizzo di modelli AI stranieri. Le autorità cinesi hanno indicato che le aziende estere devono collaborare con partner locali per ottenere l’approvazione necessaria all’implementazione di tecnologie AI nel paese.

Groq e Aramco Digital: Potenziare l’Intelligenza Artificiale con le Unità di Elaborazione del Linguaggio (LPU)

Nel panorama in rapida evoluzione dell’intelligenza artificiale (AI), l’efficienza e la velocità di elaborazione sono fondamentali. Groq, azienda leader nel settore, ha sviluppato l’Unità di Elaborazione del Linguaggio (LPU), una tecnologia rivoluzionaria progettata per accelerare i carichi di lavoro di AI e machine learning (ML). Rentemente, Groq ha collaborato con Aramco Digital per costruire il più grande data center di inferenza AI al mondo in Arabia Saudita, con l’obiettivo di raggiungere una capacità di elaborazione di 25 milioni di token al secondo entro la fine del primo trimestre del 2025.

La partnership tra Groq e Aramco Digital rappresenta un passo decisivo verso l’espansione delle capacità AI a livello globale.Il nuovo data center in Arabia Saudita non solo rafforzerà l’infrastruttura digitale del Regno, ma posizionerà anche il paese come hub centrale per l’innovazione AI nella regione. Con il supporto di Aramco Digital, Groq prevede di scalare rapidamente le sue operazioni, offrendo servizi a clienti in Europa, Medio Oriente, Africa e oltre.

Il Thiel Foundation Outlook Investe nel Futuro: Longevità, Difesa e Filosofia Politica

Nel 2023, la Thiel Foundation ha erogato sovvenzioni per un totale di $4.334.013, focalizzandosi su iniziative nei settori della longevità, della difesa e della filosofia politica. Tra i principali beneficiari figurano quaranta Thiel Fellows, giovani imprenditori che hanno scelto di abbandonare il percorso universitario tradizionale in cambio di una sovvenzione di $100.000 distribuita su due anni.

Tesla: Il Primo Declino nelle Vendite dal 2010 e la Crescente Minaccia di BYD

Nel 2024, Tesla ha registrato un calo nelle vendite annuali per la prima volta dal 2010, consegnando circa 1,79 milioni di veicoli elettrici, un decremento dell’1,1% rispetto all’anno precedente. Questo risultato ha deluso le aspettative del mercato, portando a una diminuzione del 6% del valore delle azioni Tesla nelle contrattazioni di metà giornata.

Nonostante gli sforzi per stimolare la domanda attraverso incentivi come riduzioni dei prezzi, prestiti a tasso zero e ricariche gratuite, Tesla non è riuscita a superare le vendite del 2023. Nel quarto trimestre del 2024, l’azienda ha consegnato 495.570 veicoli, mancando l’obiettivo di 515.000 necessario per superare il record annuale precedente.

La rivoluzione della creazione musicale: l’ascesa degli Strumenti AI per la produzione musicale

L’intelligenza artificiale (AI) sta ridefinendo i confini della creatività musicale, offrendo strumenti innovativi che trasformano il modo in cui la musica viene creata, modificata e distribuita. Dai generatori di musica testuale ai convertitori vocali, fino agli strumenti di separazione degli steli e di gestione dinamica delle tracce, l’ecosistema AI sta crescendo rapidamente.

Generazione Musicale AI: Innovazione e Creatività Senza Limiti

Strumenti come AIVA offrono un generatore musicale avanzato che permette non solo di creare brani musicali, ma anche di modificarli tramite tool integrati per renderli unici. Beatoven si distingue per la generazione di musica royalty-free pensata per i creatori di contenuti, mentre Boomy consente agli utenti di pubblicare e monetizzare i loro lavori generati automaticamente.

OASIS: rivoluzionario simulatore di interazioni sociali su larga scala

Camel-AI, in collaborazione con istituti di ricerca di prestigio come il Shanghai AI Laboratory, l’Università di Oxford e KAUST, ha recentemente lanciato OASIS (Open Agent Social Interaction Simulations), un framework avanzato per la simulazione dei social media. Questo strumento è progettato per modellare le interazioni online su piattaforme come X (precedentemente Twitter) e Reddit, offrendo preziose intuizioni a progettisti di piattaforme, ricercatori e decisori politici interessati a comprendere il comportamento degli utenti nel mondo digitale.

Una delle caratteristiche distintive di OASIS è la sua capacità di scalare fino a un milione di agenti, superando di gran lunga i simulatori precedenti che gestivano solo poche migliaia di utenti. Questa scalabilità consente di replicare dinamiche sociali su larga scala, fornendo un ambiente più realistico per lo studio di fenomeni complessi come la diffusione della disinformazione, la polarizzazione dei gruppi e la formazione delle comunità nei network sociali.

Emmett Shear e Stem AI: una Nuova Frontiera nell’Intelligenza Artificiale Etica

Emmett Shear, noto per aver co-fondato Twitch e guidato la piattaforma come CEO fino al 2023, ha intrapreso una nuova avventura nel campo dell’intelligenza artificiale con la sua startup, Stem AI. Fondata nel giugno 2023, Stem AI si propone di sviluppare software di intelligenza artificiale che comprendano, collaborino e si allineino con il comportamento umano, le preferenze, la biologia, la moralità e l’etica umana.

La missione di Stem AI affronta una delle sfide più critiche nel panorama tecnologico odierno: l’allineamento dell’IA con i valori umani. Con l’avanzamento rapido delle tecnologie di intelligenza artificiale, garantire che queste operino in armonia con gli obiettivi umani è fondamentale per evitare conseguenze indesiderate, come decisioni distorte o, in scenari più estremi, sistemi superintelligenti fuori dal controllo umano. Shear ha espresso preoccupazioni in merito, sottolineando la necessità di una regolamentazione internazionale per gestire lo sviluppo dell’IA, paragonandola a trattati internazionali sul controllo delle armi.

DeepSeek V3: L’Innovazione che Ridefinisce il Futuro dell’Intelligenza Artificiale

DeepSeek, un nome che è stato relativamente poco discusso nella comunità globale dell’IA, ha appena rilasciato un aggiornamento significativo con il lancio del modello DeepSeek v3. Questa nuova versione ha attirato l’attenzione per le sue prestazioni e per il costo sorprendentemente basso. In un panorama in cui le aziende statunitensi e occidentali come OpenAI, Anthropic e altre hanno tradizionalmente dominato i progressi nell’IA, il lancio di DeepSeek v3 non è solo una pietra miliare tecnica, ma anche un segnale strategico delle capacità in rapida crescita degli sviluppatori cinesi nel campo dell’IA.

Il confronto immediato riguarda ovviamente modelli come Llama 3.1 e i suoi omologhi più noti, come GPT-4 e Claude 3.5 Sonnet. DeepSeek v3 sembra aver superato Llama 3.1 in termini di benchmark, posizionandosi come uno dei migliori modelli open-weight disponibili. Le sue prestazioni lo pongono anche in competizione con alcuni dei modelli leader a livello globale, sebbene con alcune riserve. Sebbene i benchmark siano impressionanti, rimane la sensazione che, nelle applicazioni pratiche, Sonnet 3.5 possa ancora offrire risultati superiori. Tuttavia, ciò non toglie che il risultato di DeepSeek v3 sia notevole e che segni un importante passo avanti per il panorama dell’intelligenza artificiale.

Un altro aspetto che non può passare inosservato è il costo di sviluppo. DeepSeek ha dichiarato che il modello v3 è stato addestrato con una spesa di soli 5,5 milioni di dollari, utilizzando un cluster relativamente ridotto di 2.048 GPU H800. Per fare un confronto, xAI, la compagnia fondata da Elon Musk, ha utilizzato un enorme cluster da 100.000 GPU H100 per addestrare i propri modelli. La differenza di scala tra i due progetti è abissale, ma ciò che impressiona è come DeepSeek sia riuscita a ottenere risultati di alta qualità con una risorsa molto più contenuta, mettendo in evidenza la sua capacità di ottimizzare e sfruttare al meglio l’hardware a sua disposizione.

La questione sollevata da molti osservatori è se il rilascio di DeepSeek v3 rappresenti una prova del fallimento dei controlli all’esportazione sul progresso dell’IA in Cina. La risposta non è semplice, ma c’è sicuramente un argomento che merita attenzione: se DeepSeek è riuscita a sviluppare un modello di alta qualità con un cluster relativamente piccolo, cosa sarebbe in grado di fare se avesse accesso a una potenza computazionale maggiore, come quella di un cluster massiccio? La domanda diventa ancora più intrigante se consideriamo le implicazioni di ciò nel contesto delle attuali tensioni geopolitiche e della corsa globale all’innovazione in campo tecnologico.

DeepSeek V3 ha rapidamente guadagnato l’attenzione di sviluppatori e appassionati di intelligenza artificiale per le sue straordinarie capacità di programmazione e supporto tecnico. È considerato un vero e proprio punto di svolta nel panorama dei modelli linguistici avanzati, offrendo una combinazione impressionante di potenza computazionale e precisione analitica. Dopo averlo testato approfonditamente con Open Hands (precedentemente noto come Open Devin), la comunità tecnologica è unanime nel riconoscere il suo impatto rivoluzionario.

DeepSeek V3 si distingue per la sua capacità di affrontare problemi di programmazione complessi mantenendo un livello di precisione elevato. Anche nei rari casi in cui devia dal percorso ottimale, una semplice reimpostazione della sessione è sufficiente per riportarlo in carreggiata. Questo livello di flessibilità e recupero lo rende ideale per applicazioni di sviluppo software su larga scala, garantendo affidabilità durante sessioni di lavoro prolungate.

La stabilità del modello è stata elogiata da molti utenti, che hanno trovato in DeepSeek V3 uno strumento potente per affrontare progetti articolati e altamente tecnici. Il suo ambiente di lavoro, specialmente quando utilizzato con API dedicate, consente una personalizzazione avanzata, adattandosi a una vasta gamma di esigenze.

Uno degli aspetti più impressionanti di DeepSeek V3 è la sua accessibilità economica. Rispetto ad altri modelli di fascia alta come Claude 3.5 Sonnet e GPT-4, offre prestazioni comparabili a una frazione del costo. Questa caratteristica democratizza l’accesso all’intelligenza artificiale avanzata, consentendo a startup e sviluppatori indipendenti di integrare capacità AI avanzate nei loro prodotti senza gravare eccessivamente sul budget.

Il prezzo competitivo renda DeepSeek V3 una scelta ideale per progetti di intelligenza artificiale in tempo reale, videogiochi dinamici e strumenti di automazione complessi. Nonostante il costo contenuto, la qualità dell’output non è compromessa, posizionandolo come un vero rivale dei modelli più blasonati.

Sebbene DeepSeek V3 eccella nelle applicazioni di sviluppo software e nella risoluzione di problemi tecnici, alcuni utenti hanno notato che le sue capacità di conversazione generale e ragionamento contestuale sono leggermente inferiori rispetto ad altri modelli come Claude e Gemini. Questo aspetto potrebbe essere dovuto a un affinamento specifico per compiti di codifica piuttosto che per la conversazione generica.

Tuttavia, questa specializzazione non rappresenta necessariamente uno svantaggio. Gli sviluppatori vedono in DeepSeek V3 uno strumento altamente focalizzato e ottimizzato per i loro bisogni, mentre per applicazioni più orientate alla chat si possono considerare altre opzioni più generiche.

Nonostante i suoi punti di forza, DeepSeek V3 non è privo di difetti. Alcuni utenti hanno segnalato episodi di loop nei processi e difficoltà nell’affrontare richieste complesse con contesti estesi. Ad esempio, in casi di personalizzazioni sofisticate o grandi quantità di dati, il modello può richiedere ulteriori iterazioni manuali per correggere errori persistenti.

Qualche preoccupazione sulla privacy dei dati, specialmente per quanto riguarda l’uso del modello tramite server ospitati all’estero. Soluzioni come l’esecuzione locale su hardware dedicato sono state suggerite per mitigare queste preoccupazioni, sebbene ciò richieda risorse computazionali significative.

DeepSeek V3 ha sollevato nuove domande sulla competizione globale nell’IA, specialmente in un contesto in cui aziende cinesi stanno rapidamente guadagnando terreno. Mentre alcuni utenti si interrogano sulla sicurezza dei dati e sull’influenza geopolitica, altri vedono in questa tecnologia un passo avanti verso l’innovazione aperta e distribuita.

Con un supporto crescente per API aperte e integrazioni con strumenti come Cine e VSCode, DeepSeek V3 ha il potenziale di diventare uno standard industriale nel settore dello sviluppo AI. Tuttavia, per mantenere il suo vantaggio competitivo, dovrà affrontare la sfida di aggiungere funzionalità multimodali e migliorare la gestione dei contesti estesi.

DeepSeek V3 si è dimostrato uno strumento straordinario per sviluppatori e programmatori, alzando l’asticella in termini di prestazioni e convenienza economica. Sebbene presenti alcune limitazioni nelle capacità conversazionali e nella gestione di compiti complessi, il suo valore per applicazioni specifiche è indiscutibile.

La comunità tecnologica attende con impazienza ulteriori miglioramenti, inclusa l’aggiunta di input multimodali e capacità di contesto espanso. Fino ad allora, DeepSeek V3 rimane una risorsa indispensabile per chiunque desideri esplorare il futuro dell’intelligenza artificiale applicata.

Questa realtà solleva quindi importanti interrogativi sulla natura delle future competizioni nell’IA globale. Se aziende come DeepSeek riescono a creare modelli competitivi con risorse limitate, l’inevitabile domanda è quanto lontano possa arrivare questa tecnologia con maggiori investimenti e accesso a hardware avanzato. Con il continuo progresso della Cina nel settore dell’intelligenza artificiale, la sfida tra potenze globali sembra destinata a intensificarsi, mettendo sempre più sotto pressione le politiche di controllo tecnologico internazionali.


Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale: iscriviti alla newsletter di Rivista.AI e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

Llama 3.3 70B di Meta supera le prestazioni dei concorrenti

Meta Platforms ha affermato che il suo ultimo modello di linguaggio di grandi dimensioni (LLM) supera le prestazioni dei concorrenti.

Il nuovo modello Llama 3.3 70B di Meta ha ottenuto risultati migliori rispetto a Gemini 1.5 Pro di Google GPT-40 di OpenAI e Nova Pro di Amazon in diversi benchmark. Il modello Llama è open-source per la maggior parte degli sviluppatori, ma coloro che superano i 700 milioni di utenti mensili devono richiedere una licenza a Meta.

AI e Telecomunicazioni: Samsung Guida l’Evoluzione verso un Futuro Sostenibile e Intelligente AI-RAN

Il mercato delle telecomunicazioni sta rapidamente evolvendo per integrare sostenibilità, efficienza energetica ed esperienza utente avanzata, andando ben oltre il semplice miglioramento delle velocità di trasmissione dati. In questo scenario, l’integrazione tra comunicazione e intelligenza artificiale (AI) emerge come una delle tendenze più promettenti. Samsung Electronics si posiziona come leader in questa rivoluzione tecnologica, sviluppando soluzioni AI per l’intera rete di accesso radio (RAN).

La RAN rappresenta un elemento chiave delle reti di comunicazione mobile, collegando i dispositivi mobili alla rete centrale e determinando qualità della comunicazione e velocità di trasmissione. Tuttavia, poiché la RAN assorbe la maggior parte dell’energia utilizzata nelle reti di comunicazione, inclusi i data center, diventa essenziale ridurne il consumo energetico.

Transformers, how LLMs work explained visually DL5

The initials GPT stand for Generative Pretrained Transformer.

So that first word is straightforward enough, these are bots that generate new text.
Pretrained refers to how the model went through a process of learning
from a massive amount of data, and the prefix insinuates that there’s
more room to fine-tune it on specific tasks with additional training.
But the last word, that’s the real key piece.
A transformer is a specific kind of neural network, a machine learning model,
and it’s the core invention underlying the current boom in AI.
What I want to do with this video and the following chapters is go through a
visually-driven explanation for what actually happens inside a transformer.
We’re going to follow the data that flows through it and go step by step.
There are many different kinds of models that you can build using transformers.
Some models take in audio and produce a transcript.
This sentence comes from a model going the other way around,
producing synthetic speech just from text.
All those tools that took the world by storm in 2022 like DALL-E and Midjourney
that take in a text description and produce an image are based on transformers.
Even if I can’t quite get it to understand what a pi creature is supposed to be,
I’m still blown away that this kind of thing is even remotely possible.
And the original transformer introduced in 2017 by Google was invented for
the specific use case of translating text from one language into another.
But the variant that you and I will focus on, which is the type that
underlies tools like ChatGPT, will be a model that’s trained to take in a piece of text,
maybe even with some surrounding images or sound accompanying it,
and produce a prediction for what comes next in the passage.
That prediction takes the form of a probability distribution
over many different chunks of text that might follow.
At first glance, you might think that predicting the next word
feels like a very different goal from generating new text.
But once you have a prediction model like this,
a simple thing you could try to make it generate, a longer piece of text,
is to give it an initial snippet to work with,
have it take a random sample from the distribution it just generated,
append that sample to the text, and then run the whole process again to make
a new prediction based on all the new text, including what it just added.
I don’t know about you, but it really doesn’t feel like this should actually work.
In this animation, for example, I’m running GPT-2 on my laptop and having it repeatedly
predict and sample the next chunk of text to generate a story based on the seed text.
The story just doesn’t actually really make that much sense.
But if I swap it out for API calls to GPT-3 instead, which is the same basic model,
just much bigger, suddenly almost magically we do get a sensible story,
one that even seems to infer that a pi creature would live in a land of math and
computation.
This process here of repeated prediction and sampling is essentially
what’s happening when you interact with ChatGPT,
or any of these other large language models, and you see them producing
one word at a time.
In fact, one feature that I would very much enjoy is the ability to
see the underlying distribution for each new word that it chooses.

Let’s kick things off with a very high level preview
of how data flows through a transformer.
We will spend much more time motivating and interpreting and expanding
on the details of each step, but in broad strokes,
when one of these chatbots generates a given word, here’s what’s going on under the hood.
First, the input is broken up into a bunch of little pieces.
These pieces are called tokens, and in the case of text these tend to be
words or little pieces of words or other common character combinations.
If images or sound are involved, then tokens could be little
patches of that image or little chunks of that sound.
Each one of these tokens is then associated with a vector, meaning some list of numbers,
which is meant to somehow encode the meaning of that piece.
If you think of these vectors as giving coordinates in some very high dimensional space,
words with similar meanings tend to land on vectors that are
close to each other in that space.
This sequence of vectors then passes through an operation that’s
known as an attention block, and this allows the vectors to talk to
each other and pass information back and forth to update their values.
For example, the meaning of the word model in the phrase “a machine learning
model” is different from its meaning in the phrase “a fashion model”.
The attention block is what’s responsible for figuring out which
words in context are relevant to updating the meanings of which other words,
and how exactly those meanings should be updated.
And again, whenever I use the word meaning, this is
somehow entirely encoded in the entries of those vectors.
After that, these vectors pass through a different kind of operation,
and depending on the source that you’re reading this will be referred
to as a multi-layer perceptron or maybe a feed-forward layer.
And here the vectors don’t talk to each other,
they all go through the same operation in parallel.
And while this block is a little bit harder to interpret,
later on we’ll talk about how the step is a little bit like asking a long list
of questions about each vector, and then updating them based on the answers
to those questions.
All of the operations in both of these blocks look like a
giant pile of matrix multiplications, and our primary job is
going to be to understand how to read the underlying matrices.

I’m glossing over some details about some normalization steps that happen in between,
but this is after all a high-level preview.
After that, the process essentially repeats, you go back and forth
between attention blocks and multi-layer perceptron blocks,
until at the very end the hope is that all of the essential meaning
of the passage has somehow been baked into the very last vector in the sequence.
We then perform a certain operation on that last vector that produces a probability
distribution over all possible tokens, all possible little chunks of text that might
come next.
And like I said, once you have a tool that predicts what comes next
given a snippet of text, you can feed it a little bit of seed text and
have it repeatedly play this game of predicting what comes next,
sampling from the distribution, appending it, and then repeating over and over.
Some of you in the know may remember how long before ChatGPT came into the scene,
this is what early demos of GPT-3 looked like,
you would have it autocomplete stories and essays based on an initial snippet.

To make a tool like this into a chatbot, the easiest starting point is to have a
little bit of text that establishes the setting of a user interacting with a
helpful AI assistant, what you would call the system prompt,
and then you would use the user’s initial question or prompt as the first bit of
dialogue, and then you have it start predicting what such a helpful AI assistant
would say in response.
There is more to say about an added step of training that’s required
to make this work well, but at a high level this is the idea.
In this chapter, you and I are going to expand on the details of what happens at the very
beginning of the network, at the very end of the network,
and I also want to spend a lot of time reviewing some important bits of background
knowledge, things that would have been second nature to any machine learning engineer by
the time transformers came around.
If you’re comfortable with that background knowledge and a little impatient,
you could probably feel free to skip to the next chapter,
which is going to focus on the attention blocks,
generally considered the heart of the transformer.
After that, I want to talk more about these multi-layer perceptron blocks,
how training works, and a number of other details that will have been skipped up to
that point.
For broader context, these videos are additions to a mini-series about deep learning,
and it’s okay if you haven’t watched the previous ones,
I think you can do it out of order, but before diving into transformers specifically,
I do think it’s worth making sure that we’re on the same page about the basic premise
and structure of deep learning.
At the risk of stating the obvious, this is one approach to machine learning,
which describes any model where you’re using data to somehow determine how a model
behaves.
What I mean by that is, let’s say you want a function that takes in
an image and it produces a label describing it,
or our example of predicting the next word given a passage of text,
or any other task that seems to require some element of intuition
and pattern recognition.
We almost take this for granted these days, but the idea with machine learning is that
rather than trying to explicitly define a procedure for how to do that task in code,
which is what people would have done in the earliest days of AI,
instead you set up a very flexible structure with tunable parameters,
like a bunch of knobs and dials, and then, somehow,
you use many examples of what the output should look like for a given input to tweak
and tune the values of those parameters to mimic this behavior.
For example, maybe the simplest form of machine learning is linear regression,
where your inputs and outputs are each single numbers,
something like the square footage of a house and its price,
and what you want is to find a line of best fit through this data, you know,
to predict future house prices.
That line is described by two continuous parameters,
say the slope and the y-intercept, and the goal of linear
regression is to determine those parameters to closely match the data.
Needless to say, deep learning models get much more complicated.
GPT-3, for example, has not two, but 175 billion parameters.

But here’s the thing, it’s not a given that you can create some giant
model with a huge number of parameters without it either grossly
overfitting the training data or being completely intractable to train.
Deep learning describes a class of models that in the
last couple decades have proven to scale remarkably well.
What unifies them is that they all use the same training algorithm,
it’s called backpropagation, we talked about it in previous chapters,
and the context that I want you to have as we go in is that in order for this
training algorithm to work well at scale, these models have to follow a certain
specific format.
And if you know this format going in, it helps to explain many of the choices for how a
transformer processes language, which otherwise run the risk of feeling kinda arbitrary.

First, whatever kind of model you’re making, the
input has to be formatted as an array of real numbers.
This could simply mean a list of numbers, it could be a two-dimensional array,
or very often you deal with higher dimensional arrays,
where the general term used is tensor.
You often think of that input data as being progressively transformed into many
distinct layers, where again, each layer is always structured as some kind of
array of real numbers, until you get to a final layer which you consider the output.
For example, the final layer in our text processing model is a list of numbers
representing the probability distribution for all possible next tokens.
In deep learning, these model parameters are almost always referred to as weights,
and this is because a key feature of these models is that the only way these
parameters interact with the data being processed is through weighted sums.
You also sprinkle some non-linear functions throughout,
but they won’t depend on parameters.
Typically, though, instead of seeing the weighted sums all naked
and written out explicitly like this, you’ll instead find them
packaged together as various components in a matrix vector product.
It amounts to saying the same thing, if you think back to how matrix vector
multiplication works, each component in the output looks like a weighted sum.
It’s just often conceptually cleaner for you and me to think
about matrices that are filled with tunable parameters that
transform vectors that are drawn from the data being processed.
For example, those 175 billion weights in GPT-3 are
organized into just under 28,000 distinct matrices.
Those matrices in turn fall into eight different categories,
and what you and I are going to do is step through each one of those categories to
understand what that type does.
As we go through, I think it’s kind of fun to reference the specific
numbers from GPT-3 to count up exactly where those 175 billion come from.
Even if nowadays there are bigger and better models,
this one has a certain charm as the first large-language
model to really capture the world’s attention outside of ML communities.
Also, practically speaking, companies tend to keep much tighter
lips around the specific numbers for more modern networks.
I just want to set the scene going in, that as you peek under the
hood to see what happens inside a tool like ChatGPT,
almost all of the actual computation looks like matrix vector multiplication.
There’s a little bit of a risk getting lost in the sea of billions of numbers,
but you should draw a very sharp distinction in your mind between
the weights of the model, which I’ll always color in blue or red,
and the data being processed, which I’ll always color in gray.
The weights are the actual brains, they are the things learned during training,
and they determine how it behaves.
The data being processed simply encodes whatever specific input is
fed into the model for a given run, like an example snippet of text.

With all of that as foundation, let’s dig into the first step of this text processing
example, which is to break up the input into little chunks and turn those chunks into
vectors.
I mentioned how those chunks are called tokens,
which might be pieces of words or punctuation,
but every now and then in this chapter and especially in the next one,
I’d like to just pretend that it’s broken more cleanly into words.
Because we humans think in words, this will just make it much
easier to reference little examples and clarify each step.
The model has a predefined vocabulary, some list of all possible words,
say 50,000 of them, and the first matrix that we’ll encounter,
known as the embedding matrix, has a single column for each one of these words.

These columns are what determines what vector each word turns into in that first step.

We label it We, and like all the matrices we see,
its values begin random, but they’re going to be learned based on data.

Turning words into vectors was common practice in machine learning long before
transformers, but it’s a little weird if you’ve never seen it before,
and it sets the foundation for everything that follows,
so let’s take a moment to get familiar with it.
We often call this embedding a word, which invites you to think of these
vectors very geometrically as points in some high dimensional space.
Visualizing a list of three numbers as coordinates for points in 3D space would
be no problem, but word embeddings tend to be much much higher dimensional.
In GPT-3 they have 12,288 dimensions, and as you’ll see,
it matters to work in a space that has a lot of distinct directions.

In the same way that you could take a two-dimensional slice through a 3D space
and project all the points onto that slice, for the sake of animating word
embeddings that a simple model is giving me, I’m going to do an analogous
thing by choosing a three-dimensional slice through this very high dimensional space,
and projecting the word vectors down onto that and displaying the results.
The big idea here is that as a model tweaks and tunes its weights to determine
how exactly words get embedded as vectors during training,
it tends to settle on a set of embeddings where directions in the space have a
kind of semantic meaning.
For the simple word-to-vector model I’m running here,
if I run a search for all the words whose embeddings are closest to that of tower,
you’ll notice how they all seem to give very similar tower-ish vibes.
And if you want to pull up some Python and play along at home,
this is the specific model that I’m using to make the animations.
It’s not a transformer, but it’s enough to illustrate the
idea that directions in the space can carry semantic meaning.
A very classic example of this is how if you take the difference between
the vectors for woman and man, something you would visualize as a
little vector in the space connecting the tip of one to the tip of the other,
it’s very similar to the difference between king and queen.

So let’s say you didn’t know the word for a female monarch,
you could find it by taking king, adding this woman minus man direction,
and searching for the embedding closest to that point.
At least, kind of.
Despite this being a classic example for the model I’m playing with,
the true embedding of queen is actually a little farther off than this would suggest,
presumably because the way queen is used in training data is not merely a feminine
version of king.
When I played around, family relations seemed to illustrate the idea much better.
The point is, it looks like during training the model found it advantageous to
choose embeddings such that one direction in this space encodes gender information.

Another example is that if you take the embedding of Italy,
and you subtract the embedding of Germany, and add that to the embedding of Hitler,
you get something very close to the embedding of Mussolini.
It’s as if the model learned to associate some directions with Italian-ness,
and others with WWII axis leaders.
Maybe my favorite example in this vein is how in some models,
if you take the difference between Germany and Japan, and add it to sushi,
you end up very close to bratwurst.
Also in playing this game of finding nearest neighbors,
I was very pleased to see how close cat was to both beast and monster.
One bit of mathematical intuition that’s helpful to have in mind,
especially for the next chapter, is how the dot product of two
vectors can be thought of as a way to measure how well they align.
Computationally, dot products involve multiplying all the
corresponding components and then adding the results, which is good,
since so much of our computation has to look like weighted sums.
Geometrically, the dot product is positive when vectors point in similar directions,
it’s zero if they’re perpendicular, and it’s negative whenever
they point in opposite directions.
For example, let’s say you were playing with this model,
and you hypothesize that the embedding of cats minus cat might represent a sort of
plurality direction in this space.
To test this, I’m going to take this vector and compute its dot
product against the embeddings of certain singular nouns,
and compare it to the dot products with the corresponding plural nouns.
If you play around with this, you’ll notice that the plural ones
do indeed seem to consistently give higher values than the singular ones,
indicating that they align more with this direction.
It’s also fun how if you take this dot product with the embeddings of the words one,
two, three, and so on, they give increasing values,
so it’s as if we can quantitatively measure how plural the model finds a given word.

Again, the specifics for how words get embedded is learned using data.
This embedding matrix, whose columns tell us what happens to each word,
is the first pile of weights in our model.
Using the GPT-3 numbers, the vocabulary size specifically is 50,257,
and again, technically this consists not of words per se, but of tokens.

The embedding dimension is 12,288, and multiplying those
tells us this consists of about 617 million weights.
Let’s go ahead and add this to a running tally,
remembering that by the end we should count up to 175 billion.
In the case of transformers, you really want to think of the vectors
in this embedding space as not merely representing individual words.
For one thing, they also encode information about the position of that word,
which we’ll talk about later, but more importantly,
you should think of them as having the capacity to soak in context.
A vector that started its life as the embedding of the word king, for example,
might progressively get tugged and pulled by various blocks in this network,
so that by the end it points in a much more specific and nuanced direction that
somehow encodes that it was a king who lived in Scotland,
and who had achieved his post after murdering the previous king,
and who’s being described in Shakespearean language.
Think about your own understanding of a given word.
The meaning of that word is clearly informed by the surroundings,
and sometimes this includes context from a long distance away,
so in putting together a model that has the ability to predict what word comes next,
the goal is to somehow empower it to incorporate context efficiently.
To be clear, in that very first step, when you create the array of
vectors based on the input text, each one of those is simply plucked
out of the embedding matrix, so initially each one can only encode
the meaning of a single word without any input from its surroundings.
But you should think of the primary goal of this network that it flows through
as being to enable each one of those vectors to soak up a meaning that’s much
more rich and specific than what mere individual words could represent.
The network can only process a fixed number of vectors at a time,
known as its context size.
For GPT-3 it was trained with a context size of 2048,
so the data flowing through the network always looks like this array of 2048 columns,

each of which has 12,000 dimensions.
This context size limits how much text the transformer can
incorporate when it’s making a prediction of the next word.
This is why long conversations with certain chatbots,
like the early versions of ChatGPT, often gave the feeling of
the bot kind of losing the thread of conversation as you continued too long.
We’ll go into the details of attention in due time,
but skipping ahead I want to talk for a minute about what happens at the very end.
Remember, the desired output is a probability
distribution over all tokens that might come next.
For example, if the very last word is Professor,
and the context includes words like Harry Potter,
and immediately preceding we see least favorite teacher,
and also if you give me some leeway by letting me pretend that tokens simply
look like full words, then a well-trained network that had built up knowledge
of Harry Potter would presumably assign a high number to the word Snape.
This involves two different steps.
The first one is to use another matrix that maps the very last vector in that
context to a list of 50,000 values, one for each token in the vocabulary.

Then there’s a function that normalizes this into a probability distribution,
it’s called softmax and we’ll talk more about it in just a second,
but before that it might seem a little bit weird to only use this last embedding
to make a prediction, when after all in that last step there are thousands of
other vectors in the layer just sitting there with their own context-rich meanings.

This has to do with the fact that in the training process it turns out to be
much more efficient if you use each one of those vectors in the final layer
to simultaneously make a prediction for what would come immediately after it.
There’s a lot more to be said about training later on,
but I just want to call that out right now.
This matrix is called the Unembedding matrix and we give it the label WU.
Again, like all the weight matrices we see, its entries begin at random,
but they are learned during the training process.
Keeping score on our total parameter count, this Unembedding
matrix has one row for each word in the vocabulary,
and each row has the same number of elements as the embedding dimension.
It’s very similar to the embedding matrix, just with the order swapped,
so it adds another 617 million parameters to the network,
meaning our count so far is a little over a billion,
a small but not wholly insignificant fraction of the 175 billion
we’ll end up with in total.
As the very last mini-lesson for this chapter,
I want to talk more about this softmax function,
since it makes another appearance for us once we dive into the attention blocks.
The idea is that if you want a sequence of numbers to act as a probability distribution,

say a distribution over all possible next words,
then each value has to be between 0 and 1, and you also need all of them to add up to 1.

However, if you’re playing the deep learning game where everything you do looks like
matrix-vector multiplication, the outputs you get by default don’t abide by this at all.

The values are often negative, or much bigger than 1,
and they almost certainly don’t add up to 1.
Softmax is the standard way to turn an arbitrary list of numbers
into a valid distribution in such a way that the largest values end up closest to 1,
and the smaller values end up very close to 0.
That’s all you really need to know.
But if you’re curious, the way it works is to first raise e to the power
of each of the numbers, which means you now have a list of positive values,
and then you can take the sum of all those positive values and divide each
term by that sum, which normalizes it into a list that adds up to 1.
You’ll notice that if one of the numbers in the input is meaningfully bigger than the
rest, then in the output the corresponding term dominates the distribution,
so if you were sampling from it you’d almost certainly just be picking the maximizing
input.
But it’s softer than just picking the max in the sense that when other values
are similarly large, they also get meaningful weight in the distribution,
and everything changes continuously as you continuously vary the inputs.
In some situations, like when ChatGPT is using this distribution to create a next word,
there’s room for a little bit of extra fun by adding a little extra spice into this
function, with a constant T thrown into the denominator of those exponents.
We call it the temperature, since it vaguely resembles the role of temperature in
certain thermodynamics equations, and the effect is that when T is larger,
you give more weight to the lower values, meaning the distribution is a little bit
more uniform, and if T is smaller, then the bigger values will dominate more
aggressively, where in the extreme, setting T equal to zero means all of the weight
goes to maximum value.
For example, I’ll have GPT-3 generate a story with the seed text,
“once upon a time there was A”, but I’ll use different temperatures in each case.

Temperature zero means that it always goes with the most predictable word,
and what you get ends up being a trite derivative of Goldilocks.
A higher temperature gives it a chance to choose less likely words,
but it comes with a risk.
In this case, the story starts out more originally,
about a young web artist from South Korea, but it quickly degenerates into nonsense.

Technically speaking, the API doesn’t actually let you pick a temperature bigger than 2.
There’s no mathematical reason for this, it’s just an arbitrary constraint imposed
to keep their tool from being seen generating things that are too nonsensical.
So if you’re curious, the way this animation is actually working is I’m taking the
20 most probable next tokens that GPT-3 generates,
which seems to be the maximum they’ll give me,
and then I tweak the probabilities based on an exponent of 1/5.
As another bit of jargon, in the same way that you might call the components of
the output of this function probabilities, people often refer to the inputs as logits,
or some people say logits, some people say logits, I’m gonna say logits.
So for instance, when you feed in some text, you have all these word embeddings
flow through the network, and you do this final multiplication with the
unembedding matrix, machine learning people would refer to the components in that raw,
unnormalized output as the logits for the next word prediction.

A lot of the goal with this chapter was to lay the foundations for
understanding the attention mechanism, Karate Kid wax-on-wax-off style.
You see, if you have a strong intuition for word embeddings, for softmax,
for how dot products measure similarity, and also the underlying premise that
most of the calculations have to look like matrix multiplication with matrices
full of tunable parameters, then understanding the attention mechanism,
this cornerstone piece in the whole modern boom in AI, should be relatively smooth.

For that, come join me in the next chapter.
As I’m publishing this, a draft of that next chapter
is available for review by Patreon supporters.
A final version should be up in public in a week or two,
it usually depends on how much I end up changing based on that review.
In the meantime, if you want to dive into attention,
and if you want to help the channel out a little bit, it’s there waiting.

AGI: La Scommessa da 100 Miliardi di Dollari di Microsoft e OpenAI

Nel panorama dell’intelligenza artificiale, l’Intelligenza Artificiale Generale (AGI) rappresenta l’obiettivo più ambizioso: creare sistemi capaci di eguagliare o superare le capacità umane in una vasta gamma di compiti. Tradizionalmente, l’AGI è stata definita come un sistema altamente autonomo in grado di superare gli esseri umani nella maggior parte dei lavori economicamente rilevanti. Tuttavia, recenti rivelazioni indicano che Microsoft e OpenAI hanno adottato una definizione interna più pragmatica e orientata al profitto.

L’Apprendimento Multimodale ha Fornito un’ Intelligenza Universale alla Sanità? Un’Analisi Completa

L’articolo “Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey” di Qika Lin e colleghi rappresenta un’importante revisione della letteratura sull’apprendimento multimodale in ambito sanitario, vale veramente la pena di leggerlo, lo trovate in allegato.

Con l’aumento esponenziale dei dati sanitari e la crescente complessità delle informazioni, l’integrazione di diverse modalità di dati è diventata cruciale per migliorare la diagnosi e il trattamento dei pazienti. Questo articolo si propone di rispondere a una domanda fondamentale: le tecnologie di apprendimento multimodale hanno raggiunto un’intelligenza universale in sanità?

L’Evoluzione della Memoria Infinita in ChatGPT: Un Nuovo Capitolo nella Personalizzazione e nella Privacy, RAG in tutte tue chat

OpenAI sta introducendo una funzionalità rivoluzionaria per ChatGPT, che permetterà al sistema di avere una “memoria infinita”. Questa nuova capacità consentirà al modello di ricordare ogni interazione passata, permettendo una continuità nelle conversazioni e un miglioramento della personalizzazione. Grazie a questa memoria, ChatGPT sarà in grado di accumulare e richiamare informazioni utili dalle conversazioni precedenti, migliorando notevolmente la qualità delle risposte fornite in base al contesto storico.

La Guerra delle AI Generative nel 2024, CHATBOTS, LLM, Generatori di Immagini, Video, Audio e Filmati

Il 2024 ha visto le AI generative trasformarsi in uno degli ambiti più competitivi e in rapida evoluzione nel mondo della tecnologia. I colossi del passato, come OpenAI, non sono più gli unici titani di questo settore. Dai chatbot ai generatori di musica e video, il panorama sta diventando un vero e proprio campo di battaglia, con nuovi attori pronti a ritagliarsi una fetta di mercato. La velocità con cui si susseguono le innovazioni sta lasciando gli utenti con il fiato sospeso, mentre ogni settimana vengono rilasciati nuovi aggiornamenti, funzionalità e modelli. Ma chi sta realmente dominando questa corsa? Scopriamolo insieme.

Il consumo globale di carbone è raddoppiato: un paradosso nell’era della transizione energetica

Negli ultimi trent’anni, il consumo mondiale di carbone è raddoppiato, un dato sorprendente alla luce degli sforzi globali per ridurre l’uso dei combustibili fossili e mitigare l’impatto del cambiamento climatico. Il rapporto dell’Agenzia Internazionale dell’Energia (AIE), pubblicato recentemente, mette in evidenza questo paradosso: nonostante le dichiarazioni sulla necessità di ridurre le emissioni di CO2, gli impegni presi dai Paesi con l’Accordo di Parigi sul clima e le trattative internazionali in ambito COP per arginare l’uso dei fossili nella produzione di energia, il carbone continua a essere una delle principali fonti di energia nel mondo.

Asus NUC 14 Pro AI: Il Mini PC con Intelligenza Artificiale e Potenza da Desktop in un Design Ultra Compatto

Asus ha recentemente presentato l’Asus NUC 14 Pro AI, un mini PC innovativo che integra un processore Intel Core Ultra 9 in un design compatto, simile al Mac Mini di Apple. Questo dispositivo rappresenta una svolta significativa nel settore dei computer compatti, combinando potenza di calcolo avanzata con funzionalità AI all’avanguardia.

Google lancia Gemini 2.0 Flash Thinking: l’Intelligenza Artificiale che ragiona e spiega

Google ha presentato un nuovo modello di intelligenza artificiale chiamato Gemini 2.0 Flash Thinking, progettato per affrontare domande complesse e spiegare i processi logici utilizzati per arrivare alla soluzione. Questo sistema sperimentale rappresenta un’importante evoluzione nell’IA cognitiva, ponendosi come potenziale concorrente diretto del modello di ragionamento o1 di OpenAI.

Apple amplia l’integrazione di ChatGPT nelle sue applicazioni

OpenAI ha recentemente ampliato l’integrazione di ChatGPT all’interno delle applicazioni Apple, segnando un significativo passo avanti nell’adozione dell’intelligenza artificiale nei dispositivi consumer. Con il rilascio di iOS 18.2, gli utenti possono ora sfruttare le capacità avanzate di ChatGPT direttamente attraverso Siri, strumenti di scrittura e funzionalità della fotocamera.

Pagina 4 di 14

CC BY-NC-SA 4.0 DEED | Disclaimer Contenuti | Informativa Privacy | Informativa sui Cookie