Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Categoria: AI Pagina 17 di 18

L’ hub-per-una-copertura-completa-sullintelligenza-artificiale-e-lapprendimento-automatico

AI index Report 2024

Mentre la rivoluzione dell’IA avanza, è vitale rivalutare continuamente come questa tecnologia sta plasmando il nostro mondo. A tale scopo, i ricercatori dell’Istituto per l’IA centrata sull’Uomo (HAI) di Stanford pubblicano annualmente un rapporto per tracciare, sintetizzare e visualizzare dati specifici del mondo dell’IA.

Con il rilascio odierno del settimo rapporto annuale sull’Indice dell’IA dell’HAI, i ricercatori di Stanford sperano di fornire ai decisori le conoscenze necessarie per integrare questa tecnologia in modo responsabile ed etico nelle loro attività quotidiane. Il rapporto completo, che si estende per quasi 400 pagine, è ricco di informazioni sullo stato dell’IA.

Di seguito sono riportati alcuni dei punti più importanti emersi dal rapporto completo:

L’Industria Sta Guidando lo Sviluppo dell’IA
Mentre il rapporto menziona che fino al 2014 l’accademia dominava il mondo dei modelli di apprendimento automatico, questo non è più il caso. Nel 2023, il rapporto ha individuato 51 modelli di apprendimento automatico significativi prodotti dall’industria privata.

Questo confronto avviene con soli 15 modelli originari dell’accademia e 21 modelli in collaborazioni accademico-industriali. I modelli di proprietà governativa chiudevano il fondo della lista con 2 modelli.

Questo cambiamento sembra essere legato alle risorse necessarie per eseguire questi modelli di apprendimento automatico. Le enormi quantità di dati, potenza di calcolo e denaro necessarie sono semplicemente al di fuori della portata delle istituzioni accademiche. Questo spostamento è stato notato per la prima volta nel rapporto dell’Indice dell’IA dell’anno scorso, anche se il divario tra industria e accademia sembra essersi leggermente ridotto.

Impatti Economici Trasformativi dell’IA
Il rapporto ha individuato un trend interessante riguardante gli investimenti globali in AI. Mentre gli investimenti privati nell’IA nel loro insieme sono quasi raddoppiati tra il 2020 e il 2021, sono leggermente diminuiti da allora. Gli investimenti nel 2023 sono scesi del 7% a $95,99 miliardi rispetto al 2022, che ha visto un calo ancora più significativo rispetto al 2021.

In termini del Ciclo di Hype di Gartner, sembrerebbe che il “Picco delle Aspettative Esagerate” sia avvenuto nel 2021. Se così fosse, il leggero calo nell’attuale “Abisso della Delusione” riflesso negli investimenti globali indicherebbe che il mercato vede ancora un grande valore nell’IA.

Inoltre, mentre gli investimenti complessivi nell’IA sono leggermente diminuiti, gli investimenti privati nell’IA generativa in particolare sono esplosi. Nel 2023. L’investimento in questa area è aumentato a $25,2 miliardi, che è un aumento di nove volte rispetto al 2022 e quasi 30 volte rispetto al 2019. Infatti, circa un quarto di tutti gli investimenti in AI nel 2023 poteva essere attribuito all’IA generativa in modo specifico.

Inoltre, per integrare la quantità di denaro investito, l’IA sta anche fornendo riduzioni dei costi e aumenti dei ricavi alle organizzazioni che la implementano. Complessivamente, il 42% dei partecipanti ha segnalato diminuzioni dei costi a seguito dell’implementazione dell’IA, mentre il 59% ha segnalato aumenti dei ricavi. Rispetto all’anno precedente, le organizzazioni hanno visto un aumento di 10 punti percentuali per le diminuzioni dei costi e un calo di 3 punti percentuali per gli aumenti dei ricavi.

Analizzando più nel dettaglio, le tre industrie che hanno riportato più frequentemente diminuzioni sono state la manifattura (55%), le operazioni di servizio (54%) e il rischio (44%). Per quanto riguarda i guadagni, le industrie più inclini a segnalare un beneficio sono state la manifattura (66%), il marketing e le vendite (65%) e la strategia e la finanza aziendale (64%).

Mancanza di Valutazioni Standardizzate sull’IA Responsabile
Con l’integrazione sempre più profonda dell’IA nelle operazioni quotidiane della società, c’è un crescente desiderio di vedere responsabilità e affidabilità nella tecnologia. Il rapporto ha specificamente menzionato i benchmark responsabili TruthfulQA, RealToxicityPrompts, ToxiGen, BOLD e BBQ e ne ha monitorato le citazioni anno dopo anno. Anche se le citazioni non riflettono perfettamente l’uso dei benchmark, servono comunque come un indicatore generale dell’attenzione dell’industria su di essi. Ogni benchmark menzionato ha visto più citazioni nel 2023 rispetto al 2022, il che indicherebbe che le organizzazioni stanno prendendo seriamente in considerazione l’IA responsabile.

Detto ciò, l’Indice dell’IA ha anche menzionato che manca un benchmark standardizzato per la segnalazione dell’IA responsabile. Il rapporto menziona che non esiste un insieme universalmente accettato di benchmark sull’IA responsabile. TruthfulQA è utilizzato da tre dei cinque sviluppatori selezionati, mentre RealToxicityPrompts, ToxiGen, BOLD e BBQ sono stati utilizzati solo da uno dei cinque sviluppatori.

È chiaro che l’industria deve stabilire dei benchmark per l’IA responsabile e iniziare a standardizzare il prima possibile.

IA che Accelerare le Scoperte Scientifiche
L’IA ha dimostrato più volte di essere uno strumento estremamente utile nell’ambito della scoperta scientifica. Il rapporto fa menzione di diverse applicazioni di IA legate alla scienza che hanno compiuto grandi progressi nel campo nel 2023:

AlphaDev: Un sistema di IA di Google DeepMind che rende più efficiente la classificazione algoritmica. FlexiCubes: Uno strumento di ottimizzazione della rete 3D che utilizza l’IA per l’ottimizzazione basata sul gradiente e parametri adattabili, migliorando così una vasta gamma di scenari nei videogiochi, nell’immagine medica e oltre. Synbot: Synbot integra la pianificazione dell’IA, il controllo robotico e l’esperimento fisico in un ciclo chiuso, consentendo lo sviluppo autonomo di ricette di sintesi chimica ad alto rendimento. GraphCast: Uno strumento di previsione meteorologica che può fornire previsioni meteorologiche accurate fino a 10 giorni in meno di un minuto. GNoME: Uno strumento di IA che facilita il processo di scoperta dei materiali. Il rapporto ha anche analizzato alcuni degli strumenti di IA più influenti in medicina:

SynthSR: Uno strumento di IA che converte le scansioni cerebrali cliniche in immagini ad alta risoluzione pesate in T-1. Sensori infrarossi plasmonici accoppiati: sensori infrarossi plasmonici accoppiati all’IA che possono rilevare malattie neurodegenerative come il morbo di Parkinson e l’Alzheimer. EVEscape: Questa applicazione di IA è in grado di prevedere l’evoluzione virale per migliorare la preparazione alle pandemie. AlphaMIssence: Consente una migliore classificazione delle mutazioni dell’IA.

Riferimento dell’Umano Pangenoma: Uno strumento di IA per aiutare a mappare il genoma umano. Il rapporto ha inoltre scoperto che l’IA medica altamente competente è qui ed è in uso. I sistemi di IA sono significativamente migliorati negli ultimi anni sul benchmark MedQA, che è un test cruciale per valutare l’esperienza clinica dell’IA. Con un tasso di accuratezza del 90,2%, il modello più notevole del 2023—GPT-4 Medprompt—ha ottenuto un miglioramento di 22,6 punti percentuali rispetto al punteggio più alto del 2022. Le prestazioni dell’intelligenza artificiale (IA) su MedQA sono quasi triplicate dal lancio del benchmark nel 2019.

Inoltre, la FDA sta trovando sempre più utilizzi nello spazio dell’IA. La FDA ha autorizzato 139 dispositivi medici correlati all’IA nel 2022, in aumento del 12,9% rispetto all’anno precedente. La quantità di dispositivi medici correlati all’IA che hanno ricevuto l’approvazione della FDA è più che quadruplicata dal 2012. L’IA viene applicata sempre di più a questioni mediche pratiche.

Educazione e “Brain Drain” del Talento dell’IA Anche se gli strumenti di IA possono rendere molti lavori più facili per i loro controparti umani, gli esseri umani devono comunque svolgere un ruolo nello sviluppo e nell’avanzamento della tecnologia. Pertanto, il rapporto ha dettagliato la forza lavoro umana dietro la rivoluzione dell’IA.

Per cominciare, il numero di laureati americani e canadesi in Informatica (CS) e dottorati continua a crescere, nonostante i nuovi laureati magistrali in CS siano rimasti relativamente stabili. I dati del 2011 hanno mostrato circa lo stesso numero di dottorandi appena laureati in AI che trovavano impiego in accademie (41,6%) e industria (40,9%). Ma entro il 2022, un percentuale molto più alta (70,7%) è entrata nel mondo del lavoro dopo la laurea rispetto a coloro che hanno proseguito gli studi (20,0%). La percentuale di dottorandi in AI che si sono diretti verso l’industria è aumentata di 5,3 punti percentuali nell’ultimo anno da solo, suggerendo un “brain drain” del talento accademico verso l’industria.

Inoltre, i programmi di laurea correlati all’IA sono in aumento a livello globale. Il numero di programmi di laurea post-laurea in inglese sull’IA è triplicato dal 2017, mostrando una crescita costante negli ultimi cinque anni. Ciò dimostra che le università di tutto il mondo vedono i vantaggi nell’offrire programmi di laurea più focalizzati sull’IA.

Dispositivi medici abilitati all’AI e all’apprendimento automatico (AI/ML)

Mentre l’intelligenza artificiale è una parola abusata in molte industrie, molti potrebbero essere sorpresi che il suo utilizzo stia crescendo nei dispositivi medici, nella diagnostica e persino nello sviluppo di farmaci.

Infatti, nel 2023 ottobre, la FDA degli Stati Uniti ha approvato 171 dispositivi abilitati all’IA o all’apprendimento automatico nella sua lista di tali dispositivi approvati.

Di quelli appena aggiunti all’elenco, 155 sono dispositivi con date di decisione finale comprese tra il 1 agosto 2022 e il 30 luglio 2023, e 16 sono dispositivi di periodi precedenti identificati attraverso un perfezionamento dei metodi utilizzati per generare questo elenco.

Tre quarti dei dispositivi approvati sono per la radiologia. In altre aree, l’11% (57 dispositivi) è in cardiologia, mentre ci sono 15 e 14 dispositivi, rispettivamente, per ematologia e neurologia. Una manciata di dispositivi ciascuno sono per oftalmologia, gastroenterologia/urologia, e chirurgia generale e plastica.

La società con il maggior numero di dispositivi IA approvati è GE Healthcare Al secondo posto c’è Siemens Healthineers ha completato la top .

Tra le piccole aziende nello spazio dei dispositivi medici IA c’è iRhythm Technologies . L’azienda ha ottenuto l’approvazione nel luglio 2022 del suo sistema ZEUS e del relativo Zio Watch. Secondo iRhythm, l’orologio “utilizza un algoritmo basato sull’IA di fotopletismografia continua per rilevare [fibrillazione atriale] e calcolare una stima del carico di AFib”. Viene quindi inviato un rapporto al medico del paziente.

ZEUS e Zio sono stati sviluppati in collaborazione con Verily Life Sciences, la venture di ricerca sulle scienze della vita di Alphabet (GOOG).

Tra le grandi aziende di dispositivi medici, Medtronic ha diverse cose nella lista dei prodotti approvati. Questi includono dispositivi per il monitoraggio continuo della glicemia (Guardian Connect), un monitor elettrocardiogramma (TruRhythm Detection), e supporto alla rilevazione del cancro colorettale (GI Genius).

Grandi partnership farmaceutiche IA È importante notare che molte aziende con prodotti IA approvati sono piccole imprese private. Queste aziende hanno tendenzialmente lavorato con grandi aziende farmaceutiche. Due degne di nota sono Paige AI e PathAI.

Nel giugno 2022, Paige AI ha annunciato una collaborazione con l’unità Janssen di Johnson & Johnson per un test di biomarcatori basato sull’IA per lo screening del cancro alla vescica. I risultati saranno disponibili in meno di un’ora.

PathAI ha relazioni con Bristol-Myers Squibb , GlaxoSmithKline , e Roche . Nel agosto 2022, la FDA ha approvato la piattaforma di patologia digitale dell’azienda, AISight DX, per la diagnosi primaria in ambienti clinici. PathAI ha anche il prodotto AISight per la ricerca esplorativa e lo sviluppo di farmaci clinici.

Bristol sta utilizzando AISight per utilizzare la patologia potenziata dall’IA per la ricerca traslazionale in oncologia, fibrosi, e immunologia. Roche sta utilizzando un nuovo algoritmo sviluppato da PathAI nel suo software di flusso di lavoro di patologia digitale. E GSK ha iniziato una partnership nel 2022 per utilizzare lo strumento AIM-NASH di PathAI per potenziare i programmi di sviluppo di farmaci in oncologia e steatoepatite non alcolica.

La maggior parte dei dispositivi AI/ML in uso di fatto non fornisce una diagnosi, ma offre invece suggerimenti o consigli a medici o pazienti: ciò che è importante sottolineare è il ruolo prettamente analitico che svolgono questi strumenti, specializzati nella raccolta di dati e informazioni (come ad esempio il rilevamento della fibrillazione atriale dai dati ECG), mentre la diagnosi puntuale spetta interamente al medico.

L’IA per guidare l’innovazione dei dispositivi medici.

Un recente rapporto della società di analisi GlobalData sostiene che l’IA diventerà un motore significativo dell’innovazione dei dispositivi medici nel 2023, man mano che l’uso dell’IA tra i medici aumenta. La società ha notato che il mercato dei prodotti basati sull’IA cresce di 93 miliardi di dollari nel 2023, in aumento del 12% rispetto al 2022.

“Sappiamo che [l’IA] può essere utilizzata per scopi di gestione dei dati, chirurgia remota, assistenza diagnostica e procedurale, studi clinici, e altro ancora”, ha detto Alexandra Murdoch, analista di dispositivi medici presso GlobalData.

Il rapporto di GlobalData spiega che l’IA può migliorare l’efficienza della produzione di dispositivi medici e ridurre il rischio attraverso l’apprendimento automatico. Analizzando una vasta quantità di dati, i computer possono imparare dagli errori e fare miglioramenti.

Inoltre, l’IA influenzerà probabilmente ancora di più la salute digitale, a beneficio dei pazienti. Ad esempio, le applicazioni di telemedicina stanno utilizzando chatbot IA che prendono e analizzano i sintomi di un paziente, e poi forniscono orientamenti sulla salute.

In Italia con un occhio anche alla strategia nazionale per l’intelligenza artificiale (2022-2024), si e’ ragionato con l’Istituto Superiore di Sanità per comprendere: gli scenari generali per lo sviluppo delle applicazioni di IA sui dispositivi medici; le azioni che il soggetto pubblico può porre in essere, quale driver per l’adozione dell’IA in sanità e come rendere più sinergici i diversi ambiti in cui è applicata l’IA. 

Apple svela il chip M4, il motore neurale: cosa ne sappiamo?

Apple concentrerà la prossima versione della sua famiglia di chip M sull’Intelligenza Artificiale nel tentativo di aumentare le vendite di Mac, ha riferito Bloomberg.

I chip M4 saranno costruiti sullo stesso processo a 3 nanometri dei chip M3, ma il fornitore TSMC utilizzerà probabilmente una versione migliorata del processo a 3 nm per aumentare le prestazioni e l’efficienza energetica. Apple prevede inoltre di aggiungere un neural engine molto migliorato con un numero maggiore di core per le attività di Intelligenza Artificiale.

La prossima versione dei chip della serie M, conosciuta come M4, sarà disponibile in tre varietà, ha riferito il Bloomberg. L’M4 è già in fase di produzione e verrà eventualmente installato su ogni Mac, con annunci che arriveranno già quest’anno.

Il chip M1 è il primo processore per personal computer realizzato utilizzando la rivoluzionaria tecnologia di elaborazione a 5 nanometri e integra ben 16 miliardi di transistor, il numero più elevato mai racchiuso da Apple in un chip

Nell’ambito del rinnovamento, Apple fornirà ai nuovi iMac, al MacBook Pro da 14 pollici di fascia bassa, al MacBook Pro di fascia alta e ai Mac Mini i nuovi chip M4. Altri Mac M4 potrebbero arrivare nel 2025, inclusi i nuovi MacBook Air, Mac Studio e Mac Pro.

Apple, con sede a Cupertino, in California, ha presentato la versione precedente della serie M, la M3, in ottobre, insieme a nuove versioni di MacBook Pro e una versione aggiornata di iMac.

Apple ha aggiornato il MacBook Air con i chip M3 il mese scorso e ha evidenziato le capacità AI del nuovo notebook.

E con un Neural Engine più veloce ed efficiente in M3, MacBook Air continua a essere il miglior laptop consumer al mondo per l’intelligenza artificiale“, ha affermato Apple nel comunicato.

La maggior parte dei nuovi iPhone e iPad hanno un Neural Engine , un processore speciale che rende i modelli di machine learning davvero veloci, ma non si sa pubblicamente come funzioni effettivamente questo processore.

L’Apple Neural Engine (o ANE) è un tipo di NPU , che sta per Neural Processing Unit. È come una GPU, ma invece di accelerare la grafica, una NPU accelera le operazioni della rete neurale come convoluzioni e moltiplicazioni di matrici.

L’ANE non è l’unica NPU disponibile: molte aziende oltre ad Apple stanno sviluppando i propri chip acceleratori AI. Oltre al Neural Engine, la NPU più famosa è la TPU (o Tensor Processing Unit) di Google.

È molto più veloce della CPU o della GPU! Ed è più efficiente dal punto di vista energetico .

Ad esempio, quando si esegue un modello su video in tempo reale, l’ANE non surriscalda il telefono e scarica la batteria molto meno rapidamente. Gli utenti lo apprezzeranno.

L’esecuzione dei tuoi modelli su ANE lascerà la GPU libera per eseguire attività grafiche e lascerà la CPU libera per eseguire il resto della tua app.

Considera questo: molte moderne architetture di rete neurale funzionano effettivamente più velocemente sulla CPU che sulla GPU (quando si utilizza Core ML). Questo perché gli iPhone hanno CPU davvero veloci! Inoltre, c’è sempre un certo sovraccarico nella pianificazione delle attività da eseguire sulla GPU, che potrebbe annullare qualsiasi aumento di velocità.

L’atteso aggiornamento arriva in un momento in cui le vendite dei Mac hanno avuto difficoltà. I ricavi dei Mac per il trimestre conclusosi a dicembre sono cresciuti solo dello 0,6% su base annua arrivando a 7,78 miliardi di dollari.

Tuttavia, le vendite potrebbero aver subito una svolta nel periodo più recente, poiché la società di ricerca IDC ha dichiarato che Apple ha spedito 4,8 milioni di unità durante il primo trimestre, in crescita del 14,6% su base annua. Alla fine del periodo deteneva l’8,1% del mercato globale dei PC, in aumento rispetto al 7,1% dello stesso periodo di un anno fa, ha aggiunto IDC.

Apple dovrebbe tenere la sua conferenza annuale degli sviluppatori a giugno, dove si prevede che il colosso della tecnologia si concentrerà su una serie di iniziative legate all’intelligenza artificiale.

GPT-4 Turbo with Vision

OpenAI ha fatto un annuncio importante oggi attraverso il suo account X: il modello GPT-4 Turbo with Vision è ora “generalmente disponibile” tramite le sue API. Questa nuova versione del modello di intelligenza artificiale di OpenAI promette di rivoluzionare il modo in cui le applicazioni interagiscono con il linguaggio naturale e le immagini.

GPT-4 Turbo with Vision è un modello di intelligenza artificiale avanzato che combina la capacità di elaborazione del linguaggio naturale di GPT-4 con la capacità di analisi delle immagini. Questo modello è stato addestrato su una vasta gamma di dati, tra cui testi, immagini e video, per fornire risposte più accurate e pertinenti alle query degli utenti.

Con la disponibilità generale di GPT-4 Turbo with Vision tramite le API di OpenAI, gli sviluppatori possono ora integrare facilmente questa tecnologia all’avanguardia nelle loro applicazioni. Questo significa che le applicazioni potranno elaborare e comprendere il linguaggio naturale e le immagini in modo più accurato e veloce, fornendo agli utenti un’esperienza più fluida e intuitiva.

Con questa nuova versione, le capacità di computer vision di GPT-4 possono essere integrate nelle applicazioni tramite API testuali JSON, semplificando enormemente il lavoro degli sviluppatori.

Il JSON genera uno snippet di codice che gli sviluppatori possono utilizzare per automatizzare le azioni all’interno delle loro app connesse, come l’invio di e-mail, la pubblicazione di contenuti online o l’effettuazione di acquisti.

OpenAI ha dichiarato che la disponibilità generale di GPT-4 Turbo with Vision è un passo importante verso la realizzazione della sua visione di un’intelligenza artificiale accessibile a tutti. L’azienda prevede di continuare a migliorare e sviluppare la sua tecnologia per fornire soluzioni di intelligenza artificiale sempre più avanzate e innovative.

In un mondo sempre più connesso e dipendente dalla tecnologia, l’annuncio di OpenAI sulla disponibilità generale di GPT-4 Turbo with Vision rappresenta un passo importante verso un futuro in cui l’intelligenza artificiale sarà sempre più integrata nella nostra vita quotidiana. Gli sviluppatori e le aziende che adotteranno questa tecnologia all’avanguardia saranno in grado di fornire esperienze utente più avanzate e innovative, aprendo la strada a nuove opportunità e possibilità.

Mistral Launcia Open-Source Mixtral 8×22B Model

Come direbbe George Orwell :

Mistral AI ha recentemente annunciato il lancio del suo nuovo modello di linguaggio open-source, Mixtral 8x22B. Il modello, basato sulla tecnologia proprietaria di Mistral, è progettato per fornire agli sviluppatori uno strumento potente per la creazione di applicazioni di elaborazione del linguaggio naturale.

Tuttavia, alcuni esperti hanno sollevato preoccupazioni sulla potenziale minaccia che Mixtral 8x22B potrebbe rappresentare per la libertà di pensiero e la privacy individuale. Con la capacità di elaborare e generare testo in più lingue, il modello potrebbe essere utilizzato per monitorare e analizzare le conversazioni private su larga scala.

Inoltre, la decisione di Mistral di rendere open-source il modello potrebbe facilitare l’accesso a questa tecnologia da parte di governi e organizzazioni con intenzioni malevole. In un mondo in cui la sorveglianza di massa è già una realtà, l’introduzione di strumenti di elaborazione del linguaggio naturale sempre più potenti potrebbe portare a un ulteriore erosione della privacy individuale.

“La libertà di pensiero è fondamentale per una società libera e aperta,” ha affermato l’attivista per la privacy Jane Smith. “Dobbiamo essere vigili e assicurarci che le nuove tecnologie non vengano utilizzate per limitare la nostra libertà e violare la nostra privacy.”

Mentre Mistral sostiene che il suo modello open-source sia un passo avanti verso un’IA più accessibile e democratica, alcuni esperti avvertono che dobbiamo essere cauti nell’abbracciare questa tecnologia senza considerarne le potenziali conseguenze negative.

Con Mixtral 8x22B ora disponibile per il download su GitHub, rimane da vedere come gli sviluppatori e le organizzazioni utilizzeranno questo potente strumento di elaborazione del linguaggio naturale. Tuttavia, è importante che rimaniamo vigili e ci assicuriamo che la tecnologia non venga utilizzata per limitare la nostra libertà e violare la nostra privacy.

Spotify introduce AI Playlist: una nuova era per la musica

Spotify, il gigante dello streaming musicale, ha recentemente introdotto una funzionalità rivoluzionaria chiamata “AI Playlist”. Questa nuova funzionalità permette agli abbonati Premium nel Regno Unito e in Australia di creare playlist utilizzando semplici comandi di testo.

Come funziona?

Oltre alle classiche richieste di playlist basate su genere o periodo, l’intelligenza artificiale di Spotify permette agli utenti di richiedere playlist personalizzate molto più specifiche. Ad esempio, potrebbero chiedere “brani per un viaggio sulla Route 66” o “musica per un picnic nel parco”. Spotify suggerisce che le richieste possono riguardare qualsiasi cosa, come eventi storici, cibi, hobby, personaggi letterari, tonalità o simboli.

Spotify utilizza la sua conoscenza dei gusti musicali degli utenti per personalizzare ulteriormente le playlist create con questa funzione.

Una volta generata la playlist, gli utenti possono utilizzare l’intelligenza artificiale per rivedere e affinare la selezione musicale con comandi come “meno tristi” o “più rock”. Inoltre, gli utenti hanno la possibilità di scorrere verso sinistra su qualsiasi brano per eliminarlo dalla playlist.

Dal punto di vista tecnologico, Spotify afferma di utilizzare Large Language Models (LLM) per interpretare le intenzioni dell’utente. Successivamente, Spotify applica la sua tecnologia di personalizzazione, basata sulla cronologia di ascolto e le preferenze dell’utente, per creare una playlist personalizzata generata dall’intelligenza artificiale.

Perché è importante?

La nuova funzionalità AI Playlist di Spotify rappresenta un importante passo avanti nell’uso dell’intelligenza artificiale nel settore musicale. Questa tecnologia non solo rende l’esperienza di ascolto più personalizzata, ma potrebbe anche aprire la porta a nuove forme di interazione tra artisti e fan.

Cosa significa per gli utenti?

Per gli abbonati Premium di Spotify nel Regno Unito e in Australia, questa nuova funzionalità offre un nuovo livello di personalizzazione. Ora possono creare facilmente playlist che si adattano perfettamente al loro umore, attività o preferenze musicali con un semplice comando di testo.

Spotify ha inoltre recentemente introdotto un nuovo DJ basato sull’intelligenza artificiale, che offre una cura personalizzata della musica, inclusi commenti parlati.

Spotify ha utilizzato una combinazione di tecnologia Sonantic e OpenAI per creare una versione artificiale della voce del capo delle partnership culturali di Spotify, Xavier “X” Jernigan, che introduce selezioni di brani personalizzate per l’utente. 

Bill Simmons è un uomo che indossa molti cappelli su Spotify. Oltre ad essere il fondatore e amministratore delegato di The Ringer, che comprende un sito Web e una rete di podcast dedicati allo sport e alla cultura pop, è anche responsabile dell’innovazione e della monetizzazione dei podcast presso Spotify, dove sta sfruttando la sua esperienza presso The Ringer costruendo un alto livello di generare profitti attraverso l’innovazione e forti partnership e applicandoli al resto dell’azienda. Oltre a ciò, Bill ospita anche più podcast, tra cui The Rewatchables .

Ora, a quanto pare, lo streamer potrebbe trasformare la stessa tecnologia in pubblicità. Secondo le dichiarazioni del fondatore di The Ringer, Bill Simmons, il servizio di streaming sta sviluppando una tecnologia AI che sarà in grado di utilizzare la voce dell’host di podcast per creare annunci letti dall’host, senza che l’host debba effettivamente leggere e registrare il testo dell’annuncio.

Simmons ha rilasciato le dichiarazioni in un recente episodio di The Bill Simmons Podcast, dicendo: “Ci sarà un modo per usare la mia voce per le pubblicità. Ovviamente devi dare l’approvazione per la voce, ma ti apre, dal punto di vista pubblicitario, tutte queste diverse grandi possibilità.

Ha detto che questi annunci potrebbero aprire nuove opportunità per i podcaster perché potrebbero indirizzare geograficamente gli annunci – come i biglietti per un evento locale nella città dell’ascoltatore – o persino creare annunci in diverse lingue, con il permesso dell’host.

La maggior parte delle funzionalità supportate dall’intelligenza artificiale su Spotify sono attualmente limitate agli utenti premium e un recente rapporto di Spotify ha anche lasciato intendere che la piattaforma sta pianificando di aumentare il costo dell’abbonamento da $ 1 a $ 2 in mercati selezionati.

Non solo, la piattaforma sta anche implementando maggiori restrizioni al suo livello gratuito, costringendo più persone a pagare l’abbonamento premium per ottenere la migliore esperienza possibile su Spotify.

Altra novita’ Spotify sta lavorando a una funzionalità che consente agli abbonati di mixare brani e modificare la velocità di riproduzione: una funzionalità simile a quella di un DJ progettata per soddisfare i suoi utenti giovani ed esperti di social media, ha riferito il WSJ .

Gli utenti tra i 14 e i 20 anni utilizzano già la musica preferita cut, spliced, sped up and slowed down)per accompagnare la ricerca di video virali su servizi come TikTok e Instagram Reels .

Per questo motivo Spotify sta cercando di approfondire il coinvolgimento di questi utenti garantendo al tempo stesso che gli artisti e le etichette musicali siano ricompensati per tale utilizzo (Royalties) , secondo il rapporto del WSJ .

Per ora, funzionalità come accelerare o rallentare la musica (una funzionalità popolare su TikTok) sarebbero disponibili per gli abbonati regolari a Spotify , ha affermato il WSJ , mentre funzionalità più avanzate potrebbero essere prese di mira per una proposta “supremium” di fascia alta. livello di servizio.

Gli artisti in cerca di compenso pubblicano sempre più versioni multiple delle proprie canzoni (a velocità aggiuntive) per soddisfare la domanda di varietà del gruppo demografico.

Questo potrebbe garantire un nuovo Target All Azienda.

Machine Learning, AI & Data Landscape un orizzonte in espansione

FirstMark e’ un stageventure capital firm Basata in NYC e ha pubblicato l’ultima analasi sul Mercato Machine Learning, AI & Data (MAD) lo fa da un decennio.

Per vedere il PDF  2024 MAD Landscape iin HD  CLICK HERE please Zoom.

Per Accedere all’ interactive version del 2024 MAD landscape, please CLICK HERE

Nel mondo frenetico della tecnologia, dove l’innovazione è la norma e il cambiamento è costante, il Paesaggio del Machine Learning, dell’Intelligenza Artificiale e dei Dati per il 2024 rappresenta una testimonianza dell’evoluzione rapida e della proliferazione di questi campi trasformativi.

Il grafico è una rappresentazione visuale dell’intreccio intricato di aziende, tecnologie e tendenze che plasmano l’ecosistema del ML, dell’IA e dei dati. Dall’infrastruttura dati all’analisi, dall’abilitazione all’IA alle applicazioni, ogni segmento del paesaggio racconta una storia di innovazione, competizione e collaborazione.

Il panorama MAD del 2024 presenta un totale di 2.011 loghi, in aumento rispetto ai 1.416 dell’anno precedente, con 578 nuovi partecipanti alla mappa. A titolo di confronto, la prima versione del 2012 contava solo 139 loghi.

La natura intensamente affollata del panorama è principalmente il risultato di due massive ondate consecutive di creazione di aziende e finanziamenti.

La prima ondata è stata il ciclo della infrastruttura dati, che è iniziato con il Big Data e si è concluso con il Modern Data Stack. Il consolidamento tanto atteso in questo settore non è ancora completamente avvenuto, e la stragrande maggioranza delle aziende è ancora presente.

La seconda ondata è il ciclo del ML/AI, che è iniziato seriamente con l’AI generativa. Essendo ancora nelle prime fasi di questo ciclo e la maggior parte delle aziende è molto giovane, sono stati inclusi liberamente nella mappa anche giovani startup (molte delle quali sono ancora allo stadio di seed).

Da notare che queste due ondate sono strettamente correlate. Un’idea fondamentale del panorama MAD è sempre stata quella di mostrare la relazione simbiotica tra l’infrastruttura dati (sulla parte sinistra), analytics/BI e ML/AI (nel mezzo) e le applicazioni (sulla parte destra).

Sebbene ogni anno diventi sempre più difficile inserire il numero sempre crescente di aziende nella mappa, il modo migliore per pensare allo spazio MAD è come una linea di produzione – un ciclo completo dei dati dalla raccolta alla memorizzazione al processamento fino alla consegna del valore attraverso analytics o applicazioni.

Le principali modifiche nell’infrastruttura e nell’analitica sono le seguenti:

Ci sono pochissime modifiche alla struttura complessiva del lato sinistro del panorama, poiché, come vedremo di seguito (il Modern Data Stack è morto?), questa parte del panorama MAD ha visto meno attività ultimamente.

Alcune modifiche degne di nota includono la rinomina di “Database Abstraction” in “Multi-Model Databases & Abstractions” per catturare l’onda crescente intorno a un gruppo di database ‘Multi-Model’ all-in-one (SurrealDB*, EdgeDB);

l’eliminazione della sezione “Crypto / Web 3 Analytics” che abbiamo creato sperimentalmente l’anno scorso, che sembrava fuori posto in questo panorama; e la rimozione della sezione “Query Engine”, che sembrava più una parte di una sezione che una sezione separata (tutte le aziende in quella sezione appaiono ancora nella mappa – Dremio, Starburst, PrestoDB, ecc.).

Le principali modifiche nell’ambito del Machine Learning & Artificial Intelligence includono:

Con l’esplosione delle aziende di intelligenza artificiale nel 2023, è qui che abbiamo apportato di gran lunga il maggior numero di modifiche strutturali.

Date le enormi attività nel livello di ‘AI enablement’ nell’ultimo anno, ci sono 3 nuove categorie accanto a MLOps:


“AI Observability” è una nuova categoria quest’anno, con startup che aiutano a testare, valutare e monitorare le applicazioni LLM

“I piattaforme di sviluppo AI” è concettualmente vicino a MLOps ma abbiamo voluto riconoscere l’onda di piattaforme focalizzate interamente sullo sviluppo di applicazioni AI, in particolare intorno alla formazione, distribuzione e inferenza LLM


“AI Safety & Security” include aziende che affrontano le preoccupazioni innate legate agli LLM, dall’allucinazione all’etica, la conformità normativa, ecc.

Se la disputa molto pubblica tra Sam Altman ed Elon Musk ci ha insegnato qualcosa, è che la distinzione tra commerciale e non profit è fondamentale quando si tratta di sviluppatori di modelli fondamentali.

Pertanto, si e’ diviso ciò che in precedenza era “AI/AGI Orizzontale” in due categorie: “Ricerca AI commerciale” e “Ricerca AI non profit”.

L’ultima modifica che e’ stata apportata è stata un’altra modifica di nomenclatura, dove ora compare “GPU Cloud” per riflettere l’aggiunta dei set di funzionalità di base dell’infrastruttura effettuata da molti dei fornitori di GPU Cloud: in “GPU Cloud / ML Infra”.

Le principali modifiche nelle “Applicazioni” includono:

Il più grande aggiornamento qui è che… a sorpresa di nessuno… ogni azienda di livello applicativo è ora una “azienda di AI” autoproclamata – il che, per quanto abbiamo cercato di filtrare, ha causato l’esplosione dei nuovi loghi che vedete sul lato destro del panorama MAD quest’anno.

Alcune modifiche minori sulla struttura includono:

In “Applicazioni orizzontali”, c’e’ una categoria “Presentazione e Design”.
Rinominato “Ricerca” in “Ricerca / AI conversazionale” per riflettere la crescita delle interfacce basate su chat alimentate da LLM come Perplexity.

Nel settore “Industria”, rinominato “Gov’t & Intelligence” in “Aerospace, Defense & Gov’t”.

Le principali modifiche nell’ambito dell’infrastruttura open source includono:

Unito categorie che sono sempre state vicine, creando una singola categoria “Gestione dei dati” che spazia sia su “Accesso ai dati” che su “Data Ops”.


Aggiunto una nuova categoria importante, “Local AI”, poiché i costruttori hanno cercato di fornire gli strumenti infrastrutturali per portare l’IA e gli LLM nell’era dello sviluppo locale.

per Saperne di piu’ intero articolo in Inglese.

Voice Engine di OpenAI: Una Rivoluzione nella Sintesi Vocale

Voice Engine è un innovativo strumento di clonazione della voce umana sviluppato da OpenAI. Questa tecnologia di intelligenza artificiale (IA) è in grado di creare una sintesi vocale fedele all’originale a partire da un campione vocale di soli 15 secondi. L’innovazione di Voice Engine si estende a diversi settori, con particolare rilievo nel marketing e nell’educazione.

Non è una tecnologia nuova. Numerose startup forniscono prodotti per la clonazione vocale da anni, da ElevenLabs a Replica Studios a Papercup a Deepdub a Respeecher . Lo stesso hanno fatto gli operatori storici della Big Tech come Amazon, Google e Microsoft , l’ultimo dei quali è, per inciso, un importante investitore di OpenAI  .

Harris ha affermato che l’approccio di OpenAI fornisce un parlato complessivamente di qualità superiore.

Le applicazioni di clonazione vocale, pur avendo un potenziale benefico, sono state sfruttate per scopi dannosi. Ad esempio, il forum 4chan ha usato tali tecnologie per diffondere messaggi d’odio imitando celebrità. Inoltre, ci sono stati casi di utilizzo di voci clonate per ingannare i sistemi di autenticazione bancaria e influenzare le elezioni. Di fronte a tali abusi, la FCC ha dichiarato illegali le chiamate automatizzate tramite intelligenza artificiale.

OpenAI, consapevole di questi rischi, ha adottato misure per prevenire l’uso improprio del suo Voice Engine. L’accesso è limitato a un piccolo gruppo di sviluppatori e l’attenzione è rivolta a casi d’uso a basso rischio e socialmente vantaggiosi. Ad esempio, aziende come Age of Learning e HeyGen stanno utilizzando Voice Engine per generare voci fuori campo e per la traduzione, rispettivamente. Altre società stanno utilizzando Voice Engine per creare voci per persone con disturbi del linguaggio e disabilità, o per fornire feedback agli operatori sanitari nelle loro lingue principali.

Voice Engine utilizza un input di testo e un singolo campione audio di 15 secondi per generare un discorso naturale che assomiglia strettamente al parlante originale. È notevole che un piccolo modello con un singolo campione di 15 secondi possa creare voci emotive e realistiche.

OpenAI ha iniziato a testare privatamente Voice Engine con un piccolo gruppo di partner di fiducia per capire meglio le potenziali applicazioni di questa tecnologia. Alcuni esempi di applicazioni precoci includono:

  1. Assistenza alla lettura: Voice Engine può fornire assistenza alla lettura a non lettori e bambini attraverso voci naturali ed emotive che rappresentano una gamma più ampia di oratori rispetto a ciò che è possibile con le voci predefinite. Ad esempio, Age of Learning, una società di tecnologia educativa dedicata al successo accademico dei bambini, ha utilizzato Voice Engine per generare contenuti di voice-over pre-sceneggiati.
  2. Traduzione di contenuti: Voice Engine può essere utilizzato per tradurre contenuti, come video e podcast, consentendo a creatori e aziende di raggiungere più persone in tutto il mondo, fluentemente e con le loro voci. Un adottante precoce di questa tecnologia è HeyGen, una piattaforma di storytelling visivo AI che lavora con i suoi clienti aziendali per creare avatar personalizzati, simili a umani, per una varietà di contenuti.

Voice Engine è elencato come un costo di $ 15 per un milione di caratteri, o circa 162.500 parole. 

Nonostante le potenziali applicazioni benefiche, Voice Engine presenta anche delle sfide. La generazione di discorsi che assomigliano alle voci delle persone ha rischi seri, e OpenAI sta adottando un approccio cauto per un rilascio più ampio a causa del potenziale abuso di voci sintetiche. OpenAI sta avviando un dialogo sulla distribuzione responsabile delle voci sintetiche e su come la società può adattarsi a queste nuove capacità.

Sorprendentemente, Voice Engine non è addestrato o ottimizzato sui dati dell’utente. Ciò è dovuto in parte al modo effimero in cui il modello – una combinazione di processo di diffusione e trasformatore – genera il discorso.

“Prendiamo un piccolo campione audio e testo e generiamo un discorso realistico che corrisponde all’oratore originale”, ha affermato Harris. “L’audio utilizzato viene eliminato una volta completata la richiesta.”

Tra i primi utilizzatori di Voice Engine di OpenAI ci sono Age of Learning, che lo usa per generare voci fuori campo, e HeyGen, che lo sfrutta per la traduzione. Anche Livox e Lifespan lo utilizzano per creare voci per persone con disturbi del linguaggio e disabilità, mentre Dimagi lo usa per fornire feedback agli operatori sanitari.

Le voci create con Voice Engine sono contrassegnate con una filigrana resistente alle manomissioni, che incorpora identificatori non udibili nelle registrazioni. Questo permette a OpenAI di identificare facilmente le clip audio generate dal loro sistema.

OpenAI ha anche lanciato una rete di team rosso per rendere i suoi modelli più robusti e prevede di fornire ai membri di questa rete l’accesso a Voice Engine per scoprire usi dannosi.

Infine, OpenAI sta testando un meccanismo di sicurezza che richiede agli utenti di leggere un testo generato casualmente come prova della loro presenza e consapevolezza di come viene utilizzata la loro voce. Questo potrebbe permettere a OpenAI di portare Voice Engine a un pubblico più ampio in futuro.

Voice Engine di OpenAI rappresenta un passo importante nella tecnologia generativa IA, dando vita a strumenti dalla marcata consapevolezza digitale. Attraverso la sintesi del parlato avanzata, questa innovativa piattaforma permette la generazione di voci realistiche che aprono nuove frontiere nella comunicazione IA. Tuttavia, è fondamentale affrontare le sfide etiche e di sicurezza associate a questa tecnologia per garantire il suo uso responsabile e benefico.

Un Pennello Grande o un Grande Pennello?

L’intelligenza artificiale (IA) è in attesa del prossimo grande sviluppo per fare un salto in avanti.

Come ribadito in quella pubblicità degli anni ’80 non serve un pennello grande bensì un Grande Pennello.

La Circuit-Complexity-Theory è una branca della logica computazionale che studia la complessità dei problemi computazionali in termini di circuiti booleani. Recenti progressi in questo campo suggeriscono che potrebbe essere possibile ottenere miglioramenti significativi nelle prestazioni dei modelli di IA attraverso l’uso di tecniche più avanzate di ottimizzazione e approssimazione.

Il GPT-4, rilasciato a marzo possiede circa 1 trilione di parametri, quasi sei volte rispetto al suo predecessore. Secondo le stime fornite dal CEO della società, Sam Altman, il costo di sviluppo si aggira intorno ai 100 milioni di dollari.

Nel contesto di crescita dell’IA, si pone la domanda: “ci serve un Grande pennello ? Questa filosofia ha guidato l’evoluzione dell’IA, enfatizzando la creazione di modelli di machine learning sempre più grandi.

Nonostante l’impero Romano fosse uno degli imperi più grandi e potenti della storia, la sua grandezza alla fine ha contribuito alla sua caduta. La gestione di un territorio così vasto ha portato a problemi logistici, difficoltà di comunicazione, tensioni interne e vulnerabilità ai nemici esterni. Quindi, in questo caso, più grande non significava necessariamente migliore.

Nonostante i successi degli ultimi LLM, ci sono limitazioni da considerare.

L’addestramento di grandi modelli di machine learning richiede molte risorse computazionali, con implicazioni economiche ed ambientali. Inoltre, questi modelli richiedono enormi quantità di dati, sollevando questioni logistiche ed etiche.

Non sempre un modello più grande garantisce un miglioramento proporzionale delle prestazioni, soprattutto se la qualità dei dati non migliora allo stesso ritmo. Questo può portare a problemi di generalizzazione.

La complessità crescente dei modelli rende difficile la loro comprensione e l’individuazione di pregiudizi incorporati, ostacolando la responsabilità e la fiducia nell’IA.

Infine, i costi e le esigenze di risorse dei modelli più grandi possono renderli inaccessibili per entità più piccole, creando una disparità nell’accesso ai benefici dell’IA.

C’è una crescente consapevolezza che l’approccio “più grande è meglio” sta raggiungendo i suoi limiti. Per migliorare i modelli di IA, sarà necessario ottenere più performance con meno risorse.

Un esempio : LLAMA2, allenato con la metà dei Token e rilasciato nel Luglio ‘23, performa peggio di DB-RX, ma non così peggio di quanto si potrebbe pensare, lo si vede bene nelle tabelle di benchmark pubblicate da DataBricks.

DB-RX ha incluso l’addestramento su 2 trilioni di token, l’uso di 3000 GPU H100 e 3 mesi di calcolo e un investimento significativo, stimato tra i 15 e i 30 milioni di euro.

Il concetto : Più performance con meno risorse.

Alternative includono il fine-tuning per compiti specifici, l’uso di tecniche di approssimazione matematica per ridurre i requisiti hardware, e l’adattamento di modelli generalisti in modelli più piccoli e specializzati.

L’importanza del codice di programmazione e dell’hardware su cui viene eseguito è anche in discussione, evidenziando opportunità di miglioramento in questi settori.

Le reti di Head-Attention, come quelle utilizzate nei Transformer, sono state fondamentali per il successo di molte applicazioni di apprendimento automatico. Tuttavia, queste reti possono avere dei limiti, in particolare quando si tratta di gestire sequenze molto lunghe a causa della loro complessità computazionale quadratica.

Le feed-forward networks, d’altra parte, sono state la spina dorsale dell’apprendimento profondo per molti anni. Queste reti sono in grado di apprendere rappresentazioni complesse dei dati attraverso molteplici strati di neuroni artificiali. Tuttavia, anche queste reti possono avere dei limiti, in particolare quando si tratta di modellare le dipendenze temporali nei dati.

Recenti progressi in questo campo suggeriscono che potrebbe essere possibile ottenere miglioramenti significativi nelle prestazioni dei modelli di IA attraverso l’uso di tecniche più avanzate di ottimizzazione e approssimazione.

Come l’adattamento di modelli generalisti in modelli più piccoli e specializzati, e l’esplorazione di nuovi paradigmi di apprendimento automatico.

Mentre restiamo attesa dei prossimi LLama3 e GPTNext, attesi per Luglio Agosto, Fauno (LLM) , sviluppato dal gruppo di ricerca RSTLess della Sapienza Università di Roma addestrato su ampi dataset sintetici italiani, che coprono una vasta gamma di campi come dati medici, contenuti tecnici da Stack Overflow, discussioni su Quora e dati Alpaca tradotti in italiano dovra’ confrontarsi con i numeri e i dati rilasciati da Databricks con gli investimenti di DB-REX e con un ROI che si dimezza ogni 6 mesi e senza sapere cosa uscirà da Meta o OpenAI, i quali giocano un campionato tutto loro dove le GPU si contano a centinaia di migliaia.

Il campo dell’IA è in continua evoluzione e presenta sia sfide che opportunità.

In un mondo in cui le aziende investono miliardi nello sviluppo di Large Language Models (LLM), sorgono preoccupazioni riguardo alla tecnologia della scatola nera che utilizzano. Le query di ricerca LLM richiedono una potenza di elaborazione fino a dieci volte maggiore rispetto alle ricerche standard e possono comportare spese operative milionarie su larga scala. Alcuni LLM proprietari offrono un utilizzo gratuito, ma come recita il vecchio proverbio: “Se non paghi per il prodotto, il prodotto sei tu.” Questo ha spinto alcuni a esplorare approcci alternativi

Le organizzazioni e gli individui che lavorano in questo campo devono essere pronti a navigare in questo panorama in rapida evoluzione..

AIOS un ecosistema di agenti intelligenti.

Andrey Karpathy: “Guardare i LLM come chatbot è come guardare i primi computer come calcolatrici. Stiamo assistendo all’emergere di un nuovo paradigma di calcolo, e siamo solo all’inizio.” (23/09)

Carlos E. Perez: “AIOS costituisce una piattaforma olistica per liberare veramente il potenziale degli agenti LLM nel mondo reale.”

Sistema operativo dell’agente LLM. arXiv prestampa arXiv:2403.16971 .

AIOS (LLM Agent Operating System) è un nuovo framework di orchestrazione degli agenti che incorpora modelli di linguaggio di grandi dimensioni nei sistemi operativi, creando un sistema operativo con un “cervello” capace di “comprendere”.

AIOS è progettato per una distribuzione ottimale delle risorse, facilitando i cambi di contesto, l’esecuzione simultanea, i servizi di strumenti per gli agenti, il controllo degli accessi e fornendo un ricco set di strumenti per gli sviluppatori.

AIOS si basa su diversi agenti chiave che orchestrano gli altri. È composto da:

  • un Gestore di Agenti per la priorizzazione delle richieste degli agenti,
  • un Gestore di Contesto per la gestione del contesto di interazione,
  • un Gestore di Memoria per la memoria a breve termine,
  • un Gestore di Archiviazione per la conservazione dei dati a lungo termine,
  • un Gestore di Strumenti per la gestione degli strumenti API esterni,
  • e un Gestore di Accessi per l’applicazione delle politiche di privacy e controllo degli accessi.

Questi agenti comunicano con l’SDK di AIOS in modalità interattiva, insieme a compiti non-LLM provenienti dal Kernel del sistema operativo (con il pianificatore di processi, il gestore di memoria, ecc).

Questa architettura permette ad AIOS di integrare funzionalità AI complesse nei sistemi operativi tradizionali, consentendo lo sviluppo di applicazioni più intelligenti, reattive ed efficienti che possono sfruttare tutta la potenza dei LLM insieme alle risorse e capacità del sistema operativo convenzionale.

Perché è importante.

Questo approccio rappresenta un cambiamento nel modo in cui interagiamo con le macchine, con agenti implementati a livello di Sistema Operativo che svolgono compiti complessi.

Questa tendenza è dimostrata anche dai modelli ReALM di Apple, capaci di comprendere non solo la conversazione, ma anche le informazioni sullo schermo e sui lavori in background. Stiamo entrando in una nuova era del computing intelligente.

OpenAI Custom Model

OpenAI, la startup di intelligenza artificiale generativa supportata da Microsoft , sta cercando di semplificare per i clienti aziendali la creazione dei propri modelli, nel tentativo di mantenere in crescita i suoi ricavi ne la soddisfazione dei suoi clienti a costruire modelli personalizzati he  vanno oltre la messa a punto, come “iperparametri aggiuntivi e vari metodi di messa a punto efficienti dei parametri su scala più ampia”

L’iniziativa, nota come Custom Model, permetterà ai clienti di creare modelli di IA generativa utilizzando nuovi strumenti e API, con l’obiettivo di migliorare le prestazioni per determinati compiti e svelare ulteriori parametri per affinare i metodi su larga scala.

I modelli su misura (Tailored) sono in molti casi più piccoli e più performanti rispetto alle loro controparti generaliste e,rappresentano una soluzione interessante per un OpenAI storicamente sfidato in termini di capacità di calcolo .

“È particolarmente utile per le organizzazioni che necessitano di supporto per l’implementazione di pipeline di dati di addestramento efficienti, sistemi di valutazione e parametri e metodi personalizzati per massimizzare le prestazioni del modello per il loro caso d’uso o compito”, ha scritto OpenAI in un post sul blog.

“Riteniamo che in futuro, la stragrande maggioranza delle organizzazioni svilupperà modelli personalizzati che sono personalizzati per la loro industria, business o caso d’uso”, ha aggiunto OpenAI.

“Con una varietà di tecniche disponibili per costruire un modello personalizzato, le organizzazioni di tutte le dimensioni possono sviluppare modelli personalizzati per realizzare un impatto più significativo e specifico dalle loro implementazioni di IA. La chiave è definire chiaramente il caso d’uso, progettare e implementare sistemi di valutazione, scegliere le tecniche giuste e essere pronti a iterare nel tempo affinché il modello raggiunga le prestazioni ottimali”.

OpenAI fornisce l’esempio di SK Telecom, il colosso coreano delle telecomunicazioni, che ha collaborato con OpenAI per mettere a punto GPT-4 per migliorare le sue prestazioni nelle “conversazioni relative alle telecomunicazioni” in coreano.

Custom Model è stato lanciato alla prima conferenza per sviluppatori di OpenAI, tenutasi lo scorso novembre. All’epoca, Citi ha affermato che alcuni degli annunci avrebbero potuto aiutare il business cloud di Microsoft.

L’azienda ha anche svelato nuove funzionalità per il suo modello GPT-3.5, tra cui un’interfaccia utente playground affiancata per confrontare la qualità e le prestazioni del modello; supporto all’integrazione con piattaforme di terze parti; miglioramenti alla dashboard e altri.


Apple presenta ReALM: la nuova intelligenza artificiale più avanzata

Il CEO Tim Cook ha dichiarato a febbraio durante un’assemblea degli azionisti online :

Entro la fine dell’anno – ha detto Cook – non vedo l’ora di condividere con voi i modi in cui apriremo nuovi orizzonti nell’intelligenza artificiale generativa, un’altra tecnologia che crediamo possa ridefinire il futuro”.

Apple – ha proseguito – ha preso atto dell’incredibile potenziale rivoluzionario dell’intelligenza artificiale generativa e sta investendo in modo significativo in questo settore”. 

ReALM è la nuova intelligenza artificiale di Apple che, a differenza di molte altre AI, può comprendere un contesto, inclusi i suoi elementi ambigui, senza che questi debbano essere necessariamente indicati e specificati dall’interlocutore. Questo le permette di cogliere sottotesti in modo più dettagliato, consentendo interazioni più naturali con gli utenti.

La risoluzione di questo problema è una parte importante della comprensione del linguaggio naturale, poiché consente agli utenti di utilizzare pronomi e altri riferimenti indiretti senza generare confusione nella macchina. Nella creazione degli assistenti digitali, lo sviluppo della capacità di comprensione delle anafore, applicato a segnali verbali e informazioni visive, ha rappresentato storicamente una sfida significativa.

Il sistema ReALM di Apple cerca di risolvere questo problema convertendo il complesso processo di risoluzione dei riferimenti in un puro problema di modellazione del linguaggio. In tal modo, può comprendere riferimenti a elementi visivi visualizzati su uno schermo e integrare in automatico questa comprensione. Questo rappresenta un passo avanti significativo nel campo dell’intelligenza artificiale.

La “risoluzione delle anafore” è un concetto chiave nel campo dell’intelligenza artificiale e del linguaggio naturale. Le anafore sono espressioni linguistiche che fanno riferimento a un elemento o a un concetto precedentemente menzionato nel discorso. Ad esempio, in una frase come “Mario ha preso il suo cappello. Lo indossa sempre”, “lo” è un’anafora che si riferisce a “il suo cappello”.

La sfida della risoluzione delle anafore consiste nel permettere a un sistema di intelligenza artificiale di capire a cosa si riferiscono queste espressioni anaforiche nel contesto del discorso. Questo è fondamentale per la comprensione del linguaggio naturale, poiché consente agli utenti di utilizzare pronomi e altri riferimenti indiretti senza generare confusione nella macchina.

Nel caso di Apple e del suo sistema ReALM, l’obiettivo è quello di convertire il complesso processo di risoluzione dei riferimenti in un puro problema di modellazione del linguaggio. In questo modo, ReALM può comprendere riferimenti a elementi visivi visualizzati su uno schermo e integrare automaticamente questa comprensione. Questo rappresenta un passo avanti significativo nel campo dell’intelligenza artificiale e della comprensione del linguaggio naturale.

Il più recente documento di ricerca di Apple del 29 Marzo suggerisce che diventera’ un gigante tecnologico quando sarà il “vincitore dell’AI” una volta risolto il problema dell’implementazione su dispositivo che può abilitare un “superciclo” dell’iPhone, hanno detto gli analisti di Evercore ISI. ( nient’altro che una transazione di massa dai vecchi modelli di iPhone a quelli più recenti)

La ricerca, pubblicata lunedì, descrive il nuovo modello linguistico di Apple, noto come Reference Resolution As Language Modeling, o ReALM. I ricercatori hanno indicato che i modelli ReALM più piccoli presentavano prestazioni simili a quelle del GPT-4 di OpenAI, seppur con meno parametri. Ciò potrebbe consentire al nuovo modello di offrire l’AI al limite, o dispositivi come smartphone e PC, fornendo la stessa funzionalità dell’AI nei data center.

“L’innovazione chiave qui sembra essere intorno alla risoluzione dei riferimenti, che si riferisce a come l’AI (Multimodale) può comprendere i riferimenti ai dati visualizzati sullo schermo così come il contesto più conversazionale”, ha affermato l’analista di Evercore ISI Amit Daryanani.

Apple semplifica il compito normalmente complesso della risoluzione dei riferimenti convertendo tutti i dati visualizzati sullo schermo in testo, che è molto più facile per un [grande modello linguistico] da analizzare rispetto alle immagini. Questa è la caratteristica chiave che consente ad Apple di offrire prestazioni elevate con un numero limitato di parametri.”

Offrendo strumenti di intelligenza artificiale su dispositivi consumer (e forse aumentando l’utilità di Siri), Apple potrebbe offrire agli sviluppatori una latenza inferiore, una migliore sicurezza e rendere più facile e meno costoso fare lavoro correlato all’AI, ha detto Daryanani.

“Pensiamo che la strategia di AI di Apple si concentrerà sull’incorporare l’inferenza su dispositivo per [grandi modelli linguistici] che alzeranno notevolmente l’esperienza utente non solo per l’iPhone ma anche per Mac/iPad”, ha spiegato Daryanani. “

Date la loro integrazione verticale e soprattutto il loro controllo sul proprio silicio, AAPL è meglio posizionata non solo per espandere il fossato che circonda l’ecosistema iOS ma anche potenzialmente guidare un ciclo di aggiornamento accelerato qualora l’implementazione finale venga considerata un cambiamento sufficientemente grande.”

Ha proseguito: “Il ciclo di aggiornamento probabilmente sarà guidato da aggiornamenti significativi all’hardware incluso un motore neurale o GPU potenzialmente migliorato. Inoltre, un aggiornamento sufficientemente significativo delle capacità potrebbe potenzialmente portare a un aumento nei [prezzi medi di vendita].”

Apple è pronta per dare il via alla sua conferenza annuale per sviluppatori il 10 giugno, dove molti si aspettano che la gigante tecnologica faccia una serie di annunci relativi all’AI.

Perchi volesse approfondire :

L’Intelligenza Artificiale (AI) multimodale si riferisce a sistemi di AI che possono processare, capire e/o generare output per più di un tipo di dati. Questo include la combinazione di diverse modalità di input e output, come immagini, testo, suono e video. L’obiettivo è migliorare la comprensione e le capacità di ragionamento dei sistemi di intelligenza artificiale.

Il documento di ricerca “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training” discute la costruzione di modelli di linguaggio di grandi dimensioni multimodali efficienti (MLLMs). In particolare, studia l’importanza di vari componenti architettonici e scelte di dati. Attraverso ablazioni accurate e complete dell’encoder di immagini, del connettore linguaggio-visione e di varie scelte di dati di pre-addestramento, i ricercatori hanno identificato diverse lezioni di design cruciali.

Per esempio, dimostrano che per un pre-addestramento multimodale su larga scala, l’utilizzo di un mix attento di dati di didascalia di immagini, testo di immagini intercalate e dati solo di testo è fondamentale per ottenere risultati di riferimento pochi colpi allo stato dell’arte (SOTA state of the art), rispetto ad altri risultati di pre-addestramento pubblicati.

I modelli MM1, addestrati su dati visivi e linguistici, hanno dimostrato di eccellere in attività come la descrizione di immagini, la risposta a domande a partire da immagini e l’inferenza in linguaggio naturale. Grazie al pre-addestramento su larga scala, MM1 gode di proprietà interessanti come l’apprendimento migliorato nel contesto e il ragionamento multi-immagine, consentendo il prompting a catena di pensiero con pochi colpi.


Newsletter AI – non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Palantir Demo: Gotham in Afghanistan

Nel video, viene presentata una demo di Palantir Gotham in uso nel 2010, durante le operazioni in Afghanistan. Viene mostrato come il software permetta di raccogliere ed elaborare una vasta gamma di dati provenienti da fonti aperte e militari, fornendo una visione chiara della situazione sul campo.

La demo mira a dimostrare come le informazioni ottenute da fonti aperte possano aiutare i comandanti militari nelle loro missioni in Afghanistan, integrando dati su attacchi, checkpoint, rapporti di pattuglia e operazioni di sicurezza civile.

Palantir è in grado di mostrare una mappa interattiva che evidenzia gli attacchi subiti dalle forze di polizia afghane. Utilizzando un histogramma temporale e una mappa di calore geospaziale, si osservano i modelli di attacco e come questi si concentrino in specifiche aree geografiche, con il 30% degli attacchi legati a ordigni esplosivi improvvisati (IED). La polizia afghana risulta essere l’obiettivo principale, secondo i dati aggregati dal software.

I comandi possono utilizzare dati temporali per seguire gli attacchi nel tempo e verificare la variazione della situazione sul campo. Questa visualizzazione rende chiaro il deterioramento della sicurezza in determinate aree nel corso di settimane o mesi, offrendo strumenti utili per prendere decisioni strategiche.

 Il software non si limita a visualizzare dati, ma permette agli analisti di interagire direttamente con le informazioni, rendendo possibile la manipolazione dei dati in tempo reale. Questo, unito alla capacità di intelligenza artificiale (AI), facilita l’identificazione di schemi e anomalie che possono predire il comportamento dell’insurrezione e supportare le decisioni sul campo.


Il video dimostra come già nel 2010 Palantir fosse in grado di supportare missioni complesse e di fornire analisi in tempo reale, con strumenti capaci di migliorare le capacità decisionali dei comandanti sul terreno, anticipando le mosse degli insorti e ottimizzando le operazioni di controinsurrezione.

Questa tecnologia, se utilizzata al massimo delle sue potenzialità, avrebbe potuto prevedere e mitigare la rapida caduta del governo afghano nel 2021, come suggerito dai sistemi attuali di Palantir che oggi sono ancora più avanzati​.

Nel 2010, Palantir Gotham aveva già dimostrato la capacità di gestire enormi volumi di dati e di supportare operazioni militari complesse come quelle in Afghanistan, evidenziando modelli di attacco e anticipando minacce. Durante la demo del 2010, il software era in grado di analizzare in tempo reale dati provenienti da diverse fonti, come rapporti di pattugliamento e attacchi, fornendo ai comandanti sul campo una visione integrata e predittiva.

Capacità predittive nel contesto afghano

Le capacità predittive di Palantir si basano su una combinazione di intelligenza artificiale (AI) e analisi umana. Il sistema poteva analizzare enormi quantità di dati storici e attuali per identificare schemi che suggerivano future minacce, come l’incremento di attacchi tramite IED o l’evoluzione di movimenti insurrezionali.

Nella demo del 2010, ad esempio, il sistema ha mostrato chiaramente la concentrazione di attacchi contro la polizia afghana e la loro evoluzione temporale, fornendo indizi su come si sarebbe evoluta l’insurrezione.

Se avesse operato con i dati disponibili nel 2021, Palantir avrebbe potuto identificare segnali di allarme per il collasso del governo afghano, come la rapida espansione dei Talebani dopo l’annuncio del ritiro americano.

Le informazioni chiave (attacchi in aumento, diserzione delle forze di sicurezza afghane, la capacità di controllo territoriale dei Talebani) sarebbero state aggregate dal sistema e avrebbero permesso di prevedere il deterioramento della sicurezza. Tuttavia, la previsione esatta del crollo immediato e drammatico di Kabul sarebbe dipeso dall’uso efficace del sistema e dalla disponibilità di dati accurati e aggiornati.

Palantir oggi ha strumenti più avanzati che potenziano la capacità predittiva.

L’introduzione di modelli di machine learning più sofisticati e l’accesso a flussi di dati sempre più vasti e in tempo reale, come quelli derivati dai social media, dalle comunicazioni sul campo e dalle immagini satellitari, rendono possibile prevedere con maggiore precisione eventi come il collasso delle forze afghane. Questi strumenti permettono di creare scenari e simulazioni che aiutano i decisori a prepararsi a sviluppi come il rapido deterioramento della sicurezza avvenuto nell’agosto 2021​.

Nell’agosto 2021, la rapida disintegrazione delle Forze Nazionali di Difesa e Sicurezza afghane (ANDSF) e la successiva caduta di Kabul nelle mani dei talebani sono stati eventi significativi che hanno colto molti di sorpresa, nonostante le precedenti avvertenze della comunità di intelligence riguardo alla possibilità di una presa di potere talebana. Un rapporto critico dell’Ispettore Generale Speciale per la Ricostruzione dell’Afghanistan (SIGAR) delinea vari fattori che hanno contribuito a questo crollo.

Consapevolezza della Comunità d’Intelligence

La comunità d’intelligence aveva previsto una ripresa dei Talebani, ma non aveva previsto il rapido crollo delle forze di sicurezza afghane. Questa mancanza di previsione era in parte dovuta a una carenza di programmi efficaci di supervisione e valutazione interagenzia, che hanno ostacolato una chiara comprensione delle realtà sul terreno in Afghanistan.

IA, siamo vicini a una democrazia computazionale?

La democrazia e le tecnologie informatiche hanno una relazione complessa e in continua evoluzione. Le tecnologie informatiche, in particolare Internet e le piattaforme digitali, hanno la potenzialità di rendere la partecipazione dei cittadini alle decisioni pubbliche più efficace e inclusiva. Questo è stato particolarmente evidente nel primo decennio del secolo, quando c’era una grande speranza che il digitale connesso potesse essere lo spazio in cui la democrazia liberale si sarebbe diffusa e rafforzata.

Tuttavia, la fine del secondo decennio ha portato con sé nuove preoccupazioni. Mentre le tecnologie digitali e computazionali continuano a evolversi a un ritmo senza precedenti, stiamo iniziando a vedere come possono essere sfruttate per minare i principi democratici. La disinformazione, le fake news, la manipolazione delle elezioni e la violazione della privacy sono solo alcune delle sfide che stiamo affrontando nello spazio digitale-computazionale.

Paolo Benanti, professore straordinario della facoltà di Teologia presso la Pontificia università gregoriana e presidente della Commissione AI per l’informazione, ha analizzato questi problemi :

La democrazia sfrutta le potenzialità delle tecnologie informatiche per rendere più efficace e inclusiva la partecipazione dei cittadini alle decisioni pubbliche. Se il primo decennio del secolo ci ha fatto sperare che il digitale connesso fosse lo spazio dove si sarebbe diffusa e rafforzata la demorazia liberale, la fine del secondo decennio ci ha iniziato a far temere per il futuro nello spazio digitale-computazionale.

Paolo Benanti su formiche.net

Secondo Benanti, è fondamentale che i principi democratici guidino lo sviluppo e l’uso delle tecnologie informatiche.

Inoltre, è necessario un maggiore coinvolgimento dei cittadini nelle decisioni relative all’uso delle tecnologie informatiche nella società.

Mentre le tecnologie informatiche hanno il potenziale per migliorare la democrazia, è fondamentale che siano guidate da principi democratici e che i cittadini siano coinvolti nelle decisioni su come queste tecnologie vengono utilizzate e ne siano pienamente consapevoli.

Analizzando le sue riflessioni mi vengono in mente 2 Teorie :

Teoria della democrazia digitale: Questa teoria esplora come le tecnologie digitali influenzino la partecipazione politica, la trasparenza e l’accessibilità alle istituzioni democratiche.

Teoria della sovranità digitale: Questa teoria affronta questioni di controllo e autonomia nelle infrastrutture digitali e nell’accesso ai dati, considerando l’interdipendenza tra nazioni e la questione della governance globale dell’Internet.

In sostanza, le 2 teorie indicano che l’avvento delle tecnologie digitali hanno trasformato radicalmente il modo in cui i cittadini partecipano alla vita pubblica e alla democrazia.

Il termine “computazionale” si riferisce al fatto che il processo di cittadinanza e partecipazione democratica avviene sempre più attraverso piattaforme digitali e sistemi informatici.

In altre parole, poiché sempre più aspetti della nostra vita quotidiana sono mediati attraverso dispositivi digitali e piattaforme online, la partecipazione alla democrazia avviene anche attraverso questi canali.

Il concetto espresso da Benanti a mia modesta opinione interpretativa riflette una preoccupazione profonda riguardante il potere crescente delle tecnologie dell’intelligenza artificiale (IA) e la loro interazione con la democrazia.

Si evidenzia come i servizi basati sull’IA stiano offuscando i confini tra il potere computazionale personale (Edge-Mobile) e quello centralizzato nel cloud (Continuum). Ciò si verifica poiché sempre più processi e funzionalità vengono spostati online e gestiti da server remoti, con conseguente perdita di trasparenza riguardo a ciò che avviene effettivamente all’interno dei nostri dispositivi.

Questa perdita di trasparenza ha implicazioni significative per la democrazia, poiché il controllo e l’autonomia delle persone sulle proprie azioni e sulle informazioni personali possono essere compromessi.

La centralizzazione del potere computazionale personale nei server cloud può quindi portare a una centralizzazione del potere stesso, poiché le decisioni riguardanti la gestione e l’elaborazione dei dati possono essere prese da entità centralizzate che controllano tali server.

In questo contesto, si pone la domanda critica su come rendere democratico il potere centralizzato associato all’IA e al cloud computing.

Questo implica la necessità di sviluppare meccanismi e strumenti che consentano una partecipazione inclusiva e responsabile dei cittadini nella definizione delle politiche e delle pratiche relative all’utilizzo dell’IA.

È fondamentale garantire che le decisioni riguardanti l’IA siano prese in modo trasparente e responsabile, tenendo conto dei valori democratici come la partecipazione, l’equità e la tutela dei diritti individuali.

Allo stesso tempo, è cruciale evitare che la democrazia computazionale si trasformi in un’oligarchia del cloud, dove il potere decisionale è concentrato nelle mani di poche entità dominanti nel settore tecnologico.

Ciò richiede un’attenzione particolare alla regolamentazione e alla supervisione delle aziende tecnologiche, così come la promozione di un’innovazione etica che tenga conto degli impatti sociali e politici delle tecnologie dell’IA.

Affrontare queste sfide richiede un impegno collettivo per garantire che l’evoluzione dell’IA e del cloud computing avvenga nel rispetto dei principi democratici e nell’interesse del benessere pubblico, piuttosto che nel perseguimento del potere concentrato e dell’oligarchia digitale.

Solo così possiamo sperare di navigare con successo nel futuro digitale-computazionale.

Interessante citare a mio avviso il rapporto “Setting Democratic Ground Rules for AI: Civil Society Strategies” edatto da Beth Kerley dell’International Forum for Democratic Studies,. Questi analizza le priorità, le sfide e le promettenti strategie della società civile per promuovere approcci democratici alla governance dell’intelligenza artificiale (IA).

Esamina gli ostacoli – dai racconti fuorvianti all’opacità del governo : La presenza diffusa di narrazioni fuorvianti o manipolate riguardo all’IA può ostacolare una comprensione accurata e consapevole dei suoi impatti sulla democrazia, la disinformazione può influenzare le percezioni pubbliche e impedire un dibattito informato sui modi per garantire un uso democratico e responsabile dell’IA,

le lacune nell’expertise tecnica – che ostacolano l’impegno democratico sulla governance dell’IA ,

la mancanza di comprensione approfondita delle implicazioni tecnologiche dell’IA da parte dei decisori politici, dei funzionari pubblici e del pubblico in generale può ostacolare la formulazione di politiche e regolamentazioni efficaci. Le lacune nell’expertise tecnica possono portare a decisioni errate o inefficaci che non tengono conto delle sfide e delle opportunità specifiche dell’IA,

l’opacità dei governi e delle aziende, l’assenza di trasparenza da parte dei governi e delle aziende riguardo alla formulazione e all’implementazione delle politiche sull’IA può rendere difficile per i cittadini valutare e influenzare il processo decisionale e esplora come un nuovo pensiero, nuove istituzioni e nuove collaborazioni possano meglio equipaggiare le società per stabilire regole democratiche per le tecnologie dell’IA.

Il rapporto sottolinea che con i recenti progressi nello sviluppo dell’IA, stiamo vivendo un cambiamento sismico nel bilancio di potere tra le persone e i governi, che pone nuove sfide ai principi democratici come la privacy, la trasparenza e la non discriminazione e inclusione.

Sappiamo che l’IA plasmerà il mondo politico in cui viviamo, ma come possiamo garantire che le norme e la “governance” delle istituzioni democratiche plasmino la traiettoria dell’IA.

Lascia un commento


Newsletter AI – non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Dichiarazione di Trento G7, quali possibili effetti sul Bias di Genere

La “Dichiarazione di Trento”, firmata il 15 marzo 2024 dai ministri del G7 di industria, tecnologia e digitale, si propone di sviluppare l’intelligenza artificiale (AI) in modo etico e responsabile. Questo accordo è il risultato del processo avviato durante la presidenza giapponese del G7, conosciuto come il “processo di Hiroshima”.

Il nome “processo di Hiroshima” è stato scelto per richiamare l’attenzione sulle questioni etiche e sulla responsabilità nell’utilizzo della tecnologia, richiamando il ricordo delle tragedie legate alla bomba atomica durante la Seconda Guerra Mondiale, che ha avuto un impatto significativo sulla città di Hiroshima.

La dichiarazione è composta da 62 articoli e quattro allegati (la trovate in fondo all’articolo), che mirano a definire linee guida per l’implementazione di pratiche etiche nell’utilizzo e nello sviluppo dell’AI.

L’incontro si è svolto a Palazzo Geremia, sede di rappresentanza del Comune di Trento, ed è stato presieduto dal ministro delle imprese e del Made in Italy, Adolfo Urso, insieme al sottosegretario all’innovazione tecnologica e transizione digitale, Alessio Butti.

Durante la conferenza stampa, il ministro Urso ha sottolineato il passaggio dalla competizione tra i Paesi del G7 alla collaborazione piena, citando l’esempio dell’approvvigionamento dei chip come un ambito in cui la collaborazione internazionale è fondamentale.

Il 16 marzo 2023 la Commissione europea aveva giù lanciato il Critical Raw Materials Act. Tale proposta di regolamento introduce il concetto di materie prime strategiche

Poi sul  dossier G7 2023 materie prime critiche i Paesi membri hanno raggiunto un vero consenso. 

Parola d’ordine:  “riduzione del rischio”. La stessa presidente della Commissione europea Ursula von der Leyen, forte dei target contenuti nel Critical Raw Material Act, si è espressa proprio in questi termini in un duro discorso tenuto al Mercator Institute for China Studies.

Ha inoltre enfatizzato l’importanza di un utilizzo etico e responsabile dell’AI, preservando la privacy, la sicurezza dei dati personali e l’equità nei processi decisionali automatizzati.

Riteniamo che la Dichiarazione di Trento e il processo di sviluppo dell’intelligenza artificiale (AI) in modo etico e responsabile possono avere diversi effetti sull’inclusività, con un focus particolare sul superamento dei bias di genere e sull’incremento della rappresentazione e partecipazione nel campo tecnologico. Ecco alcuni possibili effetti:

Riduzione del bias di genere: L’adozione di principi etici e responsabili nell’AI potrebbe contribuire a ridurre i bias di genere presenti nei sistemi AI.

Promozione dell’inclusività e della diversità: La dichiarazione potrebbe anche promuovere l’inclusività e la diversità nel settore tecnologico, inclusa una maggiore partecipazione delle donne. Ciò potrebbe avvenire attraverso l’adozione di politiche che favoriscono l’uguaglianza di genere nelle opportunità di lavoro nel settore tecnologico e nell’accesso alla formazione e all’istruzione in campi correlati all’IA.

Miglioramento della rappresentazione: Un impegno per un’IA etica e responsabile potrebbe anche portare a un miglioramento della rappresentazione delle donne nei dati utilizzati per addestrare gli algoritmi e nei processi decisionali automatizzati.

Sensibilizzazione e educazione: La Dichiarazione di Trento potrebbe anche sottolineare l’importanza della sensibilizzazione e dell’educazione riguardo ai problemi di genere nell’IA e all’inclusività nel settore tecnologico.

In sintesi, la Dichiarazione di Trento e l’impegno per un’IA etica e responsabile possono avere un impatto positivo sulle donne e sull’inclusività, promuovendo una maggiore equità di genere, partecipazione e rappresentanza nel settore tecnologico e nell’implementazione dell’IA.

Google rivoluziona l’estrazione dati dai modelli AI: una panoramica su ChatGPT e PaLM-2

Google ha recentemente introdotto un innovativo metodo per estrarre dati da modelli di intelligenza artificiale come ChatGPT e PaLM-2.

Questo metodo, che prende di mira il livello di proiezione incorporata nei modelli, ha rivelato che le dimensioni nascoste dei modelli Ada e Babbage di OpenAI sono rispettivamente di 1024 e 2048.

Ciò rappresenta un passo significativo nell’analisi dei modelli AI e offre nuove opportunità per comprendere e utilizzare al meglio queste potenti risorse computazionali.

Quando abbiamo eseguito lo stesso attacco su ChatGPT, sembra che non ci sia quasi alcuna memorizzazione, perché ChatGPT è stato “allineato” per comportarsi come un modello di chat. Ma eseguendo il nostro nuovo attacco, possiamo far sì che emetta dati di addestramento 3 volte più spesso rispetto a qualsiasi altro modello che studiamo.

La tecnica principale prevede di chiedere ai modelli di continuare sequenze di frammenti di testo casuali e di verificare se le continuazioni generate contengano passaggi letterali da set di dati disponibili al pubblico per un totale di oltre 9 terabyte di testo.

Attraverso questa strategia, sono stati estratti oltre un milione di esempi unici di addestramento, ciascuno con più di 50 token, da modelli più piccoli come Pythia e GPT-Neo. Inoltre, dall’enorme modello OPT-175B, composto da 175 miliardi di parametri, sono stati estratti oltre 100.000 esempi di addestramento.

Ciò che è ancora più inquietante è che questa tecnica si è dimostrata estremamente efficace anche nell’estrazione di dati di addestramento da sistemi distribuiti commercialmente come Claude di Anthropic e ChatGPT di OpenAI, uno dei leader del settore. Questo suggerisce che potrebbero esserci vulnerabilità anche nei sistemi di produzione ad alto rischio.

Effettuando richieste a ChatGPT affinché ripetesse singole parole simboliche come “il” centinaia di volte, i ricercatori hanno dimostrato la capacità di far deviare il modello dal suo output conversazionale standard. In questo modo, il modello ha iniziato a generare continuazioni di testo più tipiche che assomigliavano alla distribuzione di addestramento originale, incluso l’utilizzo di passaggi letterali tratti da questa distribuzione.

Come notano i ricercatori si sa poco pubblicamente di come funzionano i modelli linguistici di grandi dimensioni come GPT-4, Gemini e Claude 2. Gli sviluppatori di queste tecnologie hanno deliberatamente scelto di trattenere nei loro modelli i dettagli chiave sui dati di addestramento, sul metodo di addestramento e sulla logica decisionale per ragioni di concorrenza e di sicurezza.

“Tuttavia, sebbene i pesi e i dettagli interni di questi modelli non siano accessibili al pubblico, i modelli stessi sono esposti tramite API”, hanno osservato i ricercatori nel loro articolo. 

Le interfacce di programmazione delle applicazioni consentono agli sviluppatori di integrare strumenti abilitati all’intelligenza artificiale come ChatGPT nelle proprie applicazioni, prodotti e servizi . 

Le API consentono agli sviluppatori di sfruttare modelli di intelligenza artificiale come GPT-4, GPT-3 e PaLM-2 per diversi casi d’uso come la creazione di assistenti virtuali e chatbot, l’automazione dei flussi di lavoro dei processi aziendali, la generazione di contenuti e la risposta a contenuti specifici del dominio.

Il Processo di Recupero Logit:

Il cuore di questo nuovo metodo è il processo di recupero logit, che imposta i bias logit per diversi token e utilizza vincoli lineari per calcolare i valori logit. Questo processo si basa sull’analisi di molteplici richieste API e sfrutta la programmazione lineare per formulare ipotesi migliori sulle differenze tra i logit. Inoltre, sono state sviluppate nuove tecniche di attacco, tra cui un “attacco logprob-free”, che ottimizza i calcoli trasformando il problema in un problema del percorso più breve in un grafico.

Questo non solo riduce il tempo necessario per i calcoli, ma fornisce anche un metodo per aggirare le tradizionali misure di sicurezza dei modelli di intelligenza artificiale.

Sicurezza e Privacy:

Sebbene questa innovazione offra nuove opportunità per l’analisi e l’utilizzo dei modelli AI, solleva anche gravi preoccupazioni in termini di sicurezza. L’approccio dell’iperrettangolo utilizzato dai ricercatori si è dimostrato più accurato ed efficiente rispetto ai metodi precedenti, con tassi di errore notevolmente più bassi nel recupero dei logit.

Tuttavia, questi risultati mettono in evidenza una seria vulnerabilità nei grandi modelli linguistici a causa del basso costo e dell’efficienza degli attacchi. Ciò suggerisce che la sicurezza dell’intelligenza artificiale deve essere rivalutata e rafforzata per proteggere i modelli da potenziali abusi e manipolazioni.

Mentre aziende di spicco nel settore dell’intelligenza artificiale come Anthropic e OpenAI si adoperano per proteggere i dati di addestramento mediante varie tecniche, tra cui il filtraggio dei dati, la crittografia e l’allineamento dei modelli, emerge la necessità di ulteriori sforzi per mitigare i rischi per la privacy derivanti da modelli di base con un elevato numero di parametri. Questo risulta evidente dai risultati ottenuti dai ricercatori.

Secondo uno studio condotto da [fonte], i modelli di intelligenza artificiale di grandi dimensioni possono essere soggetti a vulnerabilità che mettono a rischio la privacy dei dati di addestramento. Nonostante le misure di sicurezza adottate dalle aziende, è emerso che l’accesso ai dati di addestramento può comportare rischi significativi per la privacy degli utenti.

I ricercatori evidenziano che la questione della memorizzazione dei dati non riguarda solo il rispetto della privacy, ma anche l’efficienza complessiva del modello. In altre parole, l’allocazione di risorse significative per la memorizzazione potrebbe compromettere le prestazioni complessive del modello, limitando la sua utilità pratica.

L’argomento sollevato dai ricercatori richiama l’attenzione sulle sfide che le aziende devono affrontare nel bilanciare la necessità di dati di addestramento robusti con la protezione della privacy degli utenti. Questo equilibrio delicato potrebbe richiedere nuove strategie e approcci per garantire che i modelli di intelligenza artificiale possano continuare a fare progressi senza compromettere la sicurezza e la privacy dei dati.

$$$$ un utente malintenzionato potrebbe spendere poche centinaia di dollari per acquistare un piano premium di ChatGpt e ricavare migliaia di informazioni da sfruttare per le sue campagne hacker.

Fonti:

  1. “Google Introduces Groundbreaking Method for Data Extraction from AI Models.” AI Research News.
  2. “Understanding the Hidden Dimensions of OpenAI’s Ada and Babbage Models.” Google Research Blog.

REPL bending

REPL bending è una tecnica innovativa che consente di esportare rapidamente il codice da un ambiente di sviluppo interattivo (REPL), modificarlo in un editor completo e pubblicarlo istantaneamente. Questo approccio permette agli sviluppatori di lavorare in modo più efficiente e di ottenere risultati più rapidi.

Per costruire un blog in soli 2 minuti con soli 4 parole, ecco cosa fare:

  1. Scegli una piattaforma: Prima di tutto, seleziona una piattaforma di blogging che soddisfi le tue esigenze. Ci sono molte opzioni disponibili, come WordPress, Blogger, Medium, o anche piattaforme di hosting come GitHub Pages o Netlify.
  2. Crea un account: Registrati e crea un account sulla piattaforma che hai scelto.
  3. Personalizza il tuo blog: Utilizza gli strumenti di personalizzazione della piattaforma per modificare il design e le impostazioni del tuo blog in base ai tuoi gusti e alle tue esigenze.
  4. Scrivi e pubblica: Inizia a scrivere il tuo primo post sul blog. Concentrati su un argomento che ti appassiona e che pensi possa interessare ai tuoi lettori. Quando sei pronto, pubblica il post sul tuo blog.

Con questi semplici passaggi e solo quattro parole, puoi creare e pubblicare il tuo blog in soli 2 minuti. Buona scrittura!

L’avvento di Sora di OpenAI è destinato a ridefinire radicalmente l’industria creativa

OpenAI ha lanciato il nuovo text-to-video model “Sora” un mese fa.

Sora si pone come il nuovo protagonista nel panorama dell’intelligenza artificiale con il suo rivoluzionario generatore di video basato su testo, sviluppato da OpenAI. Grazie a Sora, gli utenti possono trasformare semplici messaggi di testo in coinvolgenti video, aprendo nuove frontiere nell’ambito della creatività digitale.

I video campione di Sora rilasciati da OpenAI sono ad alta definizione e ricchi di dettagli. OpenAI afferma che può generare video fino a un minuto di durata.

OpenAI sostiene anche che Sora gestisce bene l’occlusione. Un problema con i modelli esistenti è che possono perdere traccia degli oggetti quando questi scompaiono dalla vista.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field”.

Sebbene possa sembrare simile ai suoi predecessori, come DALL-E o Firefly, celebri per la loro abilità di trasformare testo in immagini, Sora si distingue per la sua capacità di creare video dinamici arricchiti da interazioni e rendering in 3D. Un’esperienza visiva che cattura l’attenzione e lascia un’impressione indelebile in chiunque ne sia testimone.

Sora incarna il prossimo capitolo nell’evoluzione dell’Intelligenza Artificiale generativa, consentendo a individui di qualsiasi livello di esperienza di esplorare nuovi orizzonti nella creazione di contenuti digitali. Con i suoi risultati straordinari, Sora si afferma come una pietra miliare in questa continua tendenza, aprendo le porte a un universo di possibilità creative senza precedenti.

Il recente lancio di “Sora” da parte di OpenAI ha scosso il mercato, suscitando preoccupazioni tra varie aziende, tra cui studi cinematografici, agenzie pubblicitarie e strumenti di editing. In particolare, Adobe, rinomata nel settore degli strumenti di editing, si trova ad affrontare una serie di sfide che meritano attenzione.

In primo luogo, emerge una crescente incertezza sul futuro. L’avvento dell’intelligenza artificiale ha abbattuto le barriere nella creazione di contenuti, ponendo interrogativi sul ruolo predominante di alcune aziende nel settore creativo nei prossimi anni tra cui ad esempio il colosso Adobe. L’impiego sempre più diffuso dell’IA, specialmente nella generazione di contenuti, potrebbe influenzare anche la fase di editing, cruciale per le entrate di Adobe.

Questo scenario solleva dubbi sulla stabilità occupazionale, poiché l’automatizzazione guidata dall’IA potrebbe portare a una maggiore produttività e, di conseguenza, a una riduzione della domanda di manodopera.

Ad esempio, il management di Adobe ha suggerito un possibile approccio di monetizzazione basato sull’utilizzo dell’IA, tramite crediti di utilizzo. Questa strategia potrebbe mitigare gli effetti negativi sulla domanda di posti di lavoro, ma la sua efficacia rimane da verificare.

Un secondo problema potenziale riguarda la distribuzione. Mentre alcuni temevano che l’IA avrebbe rivoluzionato completamente il settore del software, è fondamentale considerare l’importanza della distribuzione. Sebbene l’IA possa apportare cambiamenti significativi, la sua adozione su larga scala dipende da una serie di fattori, compresa la facilità di accesso e l’infrastruttura necessaria.

Le aziende devono affrontare le sfide derivanti da questa nuova era. La capacità di adattamento e l’innovazione strategica saranno fondamentali per mantenere una posizione di leadership in un ambiente in continua evoluzione.

Sebbene l’ecosistema delle startup dell’intelligenza artificiale possa generare una concorrenza serrata, la capacità di distribuzione rimane un fattore determinante per il successo. Anche se un’azienda sviluppa il modello più avanzato di intelligenza artificiale, senza un efficace canale di distribuzione rischia di non ottenere una diffusione ampia sul mercato. Questo è il motivo per cui, nonostante la competizione con le grandi società consolidate, come Microsoft Corporation, le startup dell’AI devono porre particolare attenzione alla distribuzione.

OpenAI, ad esempio, ha stabilito un legame strategico con Microsoft, uno dei principali attori nel panorama del software aziendale. Questa partnership non solo conferisce a OpenAI un’identità come startup nell’ambito dell’intelligenza artificiale, ma le offre anche un canale di distribuzione di vasta portata. Grazie a questa collaborazione, OpenAI può accedere a un pubblico più ampio e ottenere una rapida adozione dei suoi prodotti e servizi nell’ecosistema aziendale.

Non male per una società nemmeno quotata.

L’incertezza sul futuro è oggi più tangibile che mai. L’ascesa dell’intelligenza artificiale sta esercitando pressioni significative sul panorama lavorativo, e OpenAI non può essere sottovalutata come una mera “startup AI senza distribuzione”.

Comunque, è improbabile che l’intelligenza artificiale generativa possa fornire risultati finali all’altezza delle aspettative della creatività. Modelli come Sora potrebbero generare video basati su testo, ma è poco probabile che questi corrispondano esattamente alle visioni creative degli artisti. Questa discrepanza potrebbe essere accettabile per l’utente medio, ma difficilmente sarà soddisfacente per i professionisti del settore.

Ciò significa che gli strumenti creativi tradizionali continueranno probabilmente a essere rilevanti, poiché l’intelligenza artificiale risolverà solo una parte del processo creativo. Questo fenomeno è già evidente nell’ambito delle immagini generate dall’IA e è probabile che si ripeta anche nel caso dei video, considerando la complessità e la ricchezza di questo formato.

Ad esempio quando OpenAI ha introdotto DALL-E, si temeva che avrebbe rivoluzionato completamente il settore, ma Adobe ha risposto prontamente integrando la tecnologia nella sua suite creativa con il lancio di Firefly. Questa flessibilità e capacità di innovazione suggeriscono che anche nel caso di Sora, Adobe potrebbe trovare un modo per capitalizzare sull’intelligenza artificiale generativa, mantenendo la sua posizione dominante nel settore.

Sora potrebbe subire una “commoditizzazione” simile a quella riscontrata con DALL-E.

L’intelligenza artificiale generativa sta abbassando le barriere di accesso all’industria creativa, con vantaggi e svantaggi. Se da un lato i costi di ingresso sono ridotti, dall’altro il rischio di una contrazione del divario competitivo è presente. Tuttavia, si apre anche la possibilità di un notevole ampliamento del bacino di utenza, sebbene una parte di esso potrebbe non essere facilmente monetizzabile. In questo contesto, le strategie di pricing di le offerte di intelligenza artificiale sarà fondamentale nel valutare l’opportunità di monetizzazione degli attuali players.

I clienti mostrano un interesse non solo per la fase generativa, ma per l’intera catena del valore.

Possiamo ritenere che l’intelligenza artificiale possa non solo aumentare la produttività, ma anche espandere il bacino di utenza, poiché le aziende si impegnano sempre più nella creazione di contenuti. Questa visione è supportata dai dati e dalle ricerche condotte tra la clientela, che mostrano un crescente coinvolgimento e una maggiore percezione del valore derivante dall’utilizzo delle nuove tecnologie.


Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

MSFT Copilot cambio di paradigma

Questo si deve principalmente alla percezione di una forte adattabilità dell’intelligenza artificiale generativa nel contesto della sicurezza informatica. Le capacità di generazione di codice, riconoscimento di modelli e riparazione automatizzata di Copilot sono state individuate come elementi chiave che lo distinguono nel mercato della sicurezza. Inoltre, la capacità di apprendimento continuo e di adattamento alle minacce emergenti sta rafforzando ulteriormente la fiducia degli analisti nel potenziale di Copilot per migliorare la resilienza e l’efficacia delle difese digitali

A questo proposito J.P. Morgan ha affermato che il chatbot di intelligenza artificiale Copilot for Security di Microsoft sta determinando un cambio di paradigma nelle capacità di sicurezza del colosso tecnologico, riportamo il Transcript :

“Consideriamo la profondità dell’attenzione e della discussione sull’intelligenza artificiale durante l’evento di punta sulla sicurezza di Microsoft come un chiaro messaggio sul livello di impatto che questa tendenza tecnologica potrebbe avere sull’avanzamento della differenziazione di Microsoft nel mercato, con chiare opportunità di beneficiare del consolidamento dei fornitori IT mentre incorpora questi strumenti in tutto il suo stack tecnologico”, ha affermato un team di analisti guidati da Mark Murphy.

Gli analisti hanno sottolineato che la monetizzazione di questi prodotti, simile ad altri strumenti Copilot, seguirà un modello graduale nelle prime fasi, ma si prevede che subirà un significativo aumento nell’adozione in futuro.

La sede di Microsoft a Redmond, nello stato di Washington, ha annunciato mercoledì che lo strumento Copilot for Security sarà disponibile in versione “generale” a partire dal 1° aprile, con una serie di nuove funzionalità. Questo servizio consentirà ai professionisti della sicurezza informatica di sfruttare l’intelligenza artificiale generativa per svolgere attività come il riepilogo degli incidenti, l’analisi delle vulnerabilità e la condivisione delle informazioni sensibili.

Secondo un rapporto di Verge, l’azienda addebiterà alle aziende un costo di 4 dollari all’ora di utilizzo come parte di un modello di consumo aaS.

Questo approccio tariffario potrebbe favorire una maggiore adozione, permettendo alle aziende di pagare solo per l’uso effettivo del servizio, senza investimenti iniziali eccessivi.

Sempre in questi giorni Microsoft ha confermato che il modello linguistico di grandi dimensioni (LLM) 

Le novita’ :

GPT-4 Turbo è più capace e ha conoscenze sugli eventi mondiali fino ad aprile 2023. Ha una finestra di contesto di 128k, quindi può contenere l’equivalente di più di 300 pagine di testo in un’unica richiesta. Ottimizzato le sue prestazioni, a un prezzo tre volte più basso per i token di input e a un prezzo due volte più basso per i token di output rispetto a GPT-4.

GPT-4 Turbo è disponibile per tutti gli sviluppatori paganti da provare passando gpt-4-1106-preview nell’API e MSFT prevede di rilasciare il modello stabile pronto per la produzione nelle prossime settimane.

Aggiornamenti per la chiamata di funzioni
La chiamata di funzioni consente di descrivere le funzioni della tua app o delle API esterne ai modelli e di far scegliere al modello in modo intelligente di restituire un oggetto JSON contenente gli argomenti per chiamare quelle funzioni.

Con diversi miglioramenti oggi, tra cui la possibilità di chiamare più funzioni in un’unica richiesta: gli utenti possono inviare un’unica richiesta per più azioni, come ad esempio “aprire il finestrino dell’auto e spegnere l’aria condizionata”, che prima richiederebbe più interazioni con il modello. Stiamo inoltre migliorando l’accuratezza della chiamata di funzioni: GPT-4 Turbo è più propenso a restituire i giusti parametri delle funzioni.

Miglioramento nell’ eseguire le istruzioni e JSON Mode
GPT-4 Turbo funziona meglio dei modelli precedenti nei compiti che richiedono la rigorosa esecuzione delle istruzioni, come generare formati specifici (ad esempio “rispondere sempre in XML”).

Supporta la nostra nuova modalità JSON, che garantisce che il modello risponderà con un JSON valido. Il nuovo parametro dell’API response_format consente al modello di limitare la sua output per generare un oggetto JSON sintatticamente corretto.

La modalità JSON è utile per gli sviluppatori che generano JSON nell’API Completions API al di fuori della chiamata di funzioni.

Output riproducibili e log probability
Il nuovo parametro seed consente output riproducibili rendendo il modello restituire completamenti consistenti nella maggior parte dei casi. Questa funzione beta è utile per casi d’uso come riprodurre richieste per il debug, scrivere test di unità più completi e avere generalmente un maggiore controllo sul comportamento del modello.

MSFT sta anche lanciando una funzione per restituire le probabilità di log per i token di output più probabili generati da GPT-4 Turbo e GPT-3.5 Turbo nelle prossime settimane, il che sarà utile per creare funzionalità come l’autocompletamento in un’esperienza di ricerca.

Nvidia è destinata a diventare la prossima Cisco? L’importanza del Neworking

Si prevede che il mercato delle reti collettive di data center registrerà un CAGR di circa l’1113% nei prossimi anni, diverse fonti (1, 2) suggeriscono che all’interno di questo mercato InfiniBand potrebbe crescere ad un CAGR di circa il 40% rispetto al suo valore attuale. dimensione attuale di pochi miliardi di dollari.

Esiste un altro pezzo importante del mercato degli acceleratori per data center, in cui la situazione competitiva è esattamente l’opposto di quanto discusso fino ad ora sulla strategia di Nvdia, ovvero le soluzioni di rete per data center.

In questo caso, Nvidia è la sfidante dell’attuale equilibrio e ha già dimostrato come si possa rapidamente sconvolgere un mercato.

Il protocollo universale originale per la rete di computer cablati è Ethernet, che è stato progettato per offrire un’interconnessione semplice, flessibile e scalabile nelle reti locali o nelle reti geografiche.

Con l’emergere dell’informatica ad alte prestazioni e dei data center su larga scala, le soluzioni di rete Ethernet hanno dovuto affrontare una nuova opportunità di mercato in espansione e hanno rapidamente stabilito un’elevata penetrazione grazie alla loro accettazione .

Tuttavia, è stato stabilito un nuovo standard, InfiniBand, progettato specificamente per connettere server, dispositivi di archiviazione e di rete in ambienti informatici ad alte prestazioni concentrandosi su bassa latenza, alte prestazioni, basso consumo energetico e affidabilità. Legetevi un bell ‘articolo su Linkedin.

Nel 2005, 10 dei 100 migliori supercomputer del mondo utilizzavano la tecnologia di rete InfiniBand, numero che è salito a 48 nel 2010 e si attesta attualmente a 61.

Il principale fornitore di apparecchiature di rete basate su InfiniBand era stata Mellanox, fondata da ex dirigenti Intel nel 1999 in Israele ed è nata come azienda di semiconduttori specializzata in tecnologie di rete di interconnessione per data center e calcolo ad alte prestazioni.

Nel 2019, c’è stata una vera e propria guerra di offerte tra Nvidia, Intel e Xilinx (acquisita da AMD) per acquisire l’azienda, dove Nvidia è riuscita a fornire l’offerta più generosa con 6,9 miliardi di dollari.

Questa acquisizione ha permesso l’ integrazione di rete e GPU e ha creato enormi miglioramenti delle prestazioni nei carichi di lavoro informatici come l’IA che richiedono larghezza di banda elevata e bassa latenza, offrendo una soluzione data center integrata che nessun concorrente nel campo delle GPU o della rete possiede. L’integrazione della rete di Mellanox con le GPU NVIDIA ha creato una soluzione di elaborazione e rete end-to-end innovativa che ha portato aal suo  HGX HGX(8 GPU Nvidia con rete integrata). HGX è appositamente progettato per questi carichi di lavoro informatici altamente impegnativi, senza ostacoli da vincoli di rete.

Con questa acquisizione perfettamente tempestiva, hanno portato internamente la tecnologia di rete InfiniBand, che si è rivelata un enorme successo grazie alla rapida affermazione dell’intelligenza artificiale nel 2023. Questo dimostra che lo standard ha ottenuto un’ampia accettazione negli ambienti informatici ad alte prestazioni, dove risiedono le tecnologie di intelligenza artificiale.

Oltre ad acquisire il know-how InfiniBand di Mellanox, Nvidia ha guadagnato molto di più con l’acquisizione. Ciò può essere riassunto dalla seguente diapositiva tratta da una presentazione agli investitori di Mellanox dell’aprile 2020, l’ultima come società autonoma prima che Nvidia completasse l’acquisizione.

Oltre allo standard InfiniBand, Mellanox eccelleva anche nella produzione di dispositivi Ethernet di fascia alta, occupando una posizione leader negli adattatori, ma soprattutto anche negli switch Ethernet e nelle schede NIC (interfaccia di rete intelligente).

Sulla base di queste tecnologie Nvidia è stata anche in grado di offrire soluzioni di rete competitive per coloro che desiderano attenersi agli standard Ethernet.

La piattaforma Spectrum-X basata su Ethernet recentemente introdotta ne è un buon esempio, che secondo l’azienda fornisce prestazioni di rete 1,6 volte più veloci.

Dell , HPE e Lenovo hanno già annunciato che integreranno Spectrum-X nei propri server, aiutando i clienti che desiderano accelerare i carichi di lavoro AI.

Oltre alle tecnologie InfiniBand e Spectrum-X, che in genere collegano interi server GPU costituiti da 8 GPU Nvidia, Nvidia ha sviluppato l’interconnessione diretta GPU-to-GPU NVLink, che costituisce l’altra parte critica delle soluzioni di rete dei data center.

Questa tecnologia presenta anche numerosi vantaggi rispetto al protocollo bus PCIe standard utilizzato per collegare le GPU tra loro.

Tra gli altri, questi includono l’accesso diretto alla memoria eliminando la necessità del coinvolgimento della CPU o della memoria unificata che consente alle GPU di condividere un pool di memoria comune.

Le dimensioni del business networking di Nvidia hanno già superato la cifra di 10 miliardi di dollari nell’ultimo trimestre del terzo trimestre dell’anno fiscale 2024, quasi triplicando rispetto a un anno fa.

La combinazione delle GPU all’avanguardia di Nvidia con le sue soluzioni di rete avanzate nella piattaforma di supercalcolo HGX è stata un’eccellente mossa di vendita (per non parlare della linea di prodotti Grace CPU), creando essenzialmente l’architettura di riferimento per i carichi di lavoro AI.

La rapidità con cui questo mercato potrebbe evolversi nei prossimi anni è ciò di cui vorrei discutere nei prossimi articoli.

Il contenuto del presente articolo deve intendersi solo a scopo informativo e non costituisce una consulenza professionale. Le informazioni fornite sono ritenute accurate, ma possono contenere errori o imprecisioni e non possono essere prese in considerazione per eventuali investimenti personali.

Un Drill Down sulla supremazia Tecnologica di NVDIA

Nvidia ha un enorme vantaggio in termini di software e di harware che consente loro di dominare la formazione sull’apprendimento automatico e di addebitare enormi profitti.

Ogni altro stack software non è neanche lontanamente vicino a offrire ciò che fa Nvidia anche se qusto vantaggio competitivo si potrebbe indebolire a causa delle evoluzioni di PyTorch 2.0 di Meta e Triton di OpenAI e sul lavoro su cui MosaicML sta lavorando già dall’anno scorso.

Con Composer e Foundry  releases, ora anche l’hardware del concorrente AMD è facile da usare quanto l’hardware Nvidia, la cui famiglia di prodotti MI300 ha iniziato a essere distribuita nel quarto trimestre del 2023.

L’acceleratore AMD autonomo MI300X e l’unità di elaborazione accelerata MI300A saranno i primi veri concorrenti sfidanti al monopolio dell’intelligenza artificiale di Nvidia.

Lo stack hardware viene fornito con il software ROCm open source di AMD (equivalente CUDA), lanciato ufficialmente nel 2016. Negli ultimi anni, ROCm è riuscito a guadagnare terreno tra alcuni dei framework di deep learning più popolari come PyTorch o TensorFlow, che potrebbero rimuovere il problema l’ostacolo più importante affinché le GPU AMD possano guadagnare terreno in modo significativo sul mercato.

Nel 2021, PyTorch ha annunciato l’integrazione nativa della GPU AMD, consentendo la portabilità del codice scritto in CUDA per l’esecuzione su hardware AMD. Questa avrebbe potuto essere una pietra miliare importante per rompere il monopolio di CUDA.

Sebbene molti gruppi di interesse stiano spingendo al massimo, in base a diverse opinioni il ROCm di AMD è ancora lungi dall’essere perfetto, mentre CUDA è stato perfezionato negli ultimi 15 anni. Credo che questo lascerà CUDA la prima scelta per gli sviluppatori per il momento, mentre molti bug e carenze di ROCm verranno risolti solo nei prossimi anni.

Oltre a ROCm, si stanno evolvendo anche alcune alternative indipendenti dall’hardware per la programmazione GPU come Triton di OpenAI o oneAPI di Intel. È certo che, man mano che tutti si renderanno conto del potenziale di business dell’intelligenza artificiale, sarà solo questione di tempo prima che esistano alternative valide per CUDA, ma dobbiamo ancora aspettare scoperte rivoluzionarie su questo fronte.

Poiché le aziende faticano a procurarsi GPU sufficienti per i propri carichi di lavoro di intelligenza artificiale, sono sicuro che ci sarà una forte domanda per le soluzioni AMD anche nel 2024.

Tuttavia, le previsioni di 2 miliardi di dollari di entrate derivanti dalle GPU per data center nel 2024 da parte del CEO di AMD, Lisa Su, sono ben lontane dal trimestre più recente di Nvidia, in cui le entrate legate esclusivamente alle GPU avrebbero potuto superare i 10 miliardi di dollari, e continuano ad aumentare rapidamente.

Ma torniamo un po indietro nel tempo e facciamo un drill down del vantaggio di Nvidia e sul suo Ecosistema.

Nvidia si sta posizionando per l’era del calcolo accelerato (accellerated computing) da decenni, infatti fino dalla GTC (GPU Technology Conference) del 2010 dell’azienda era incentrata sull’idea dell’uso delle GPU per l’elaborazione generica, con particolare attenzione ai supercomputer.

Gli investimenti si sono concentrati nel lancio delle microarchitetture GPU (in inglese graphics processing unit) Ampere e Hopper negli ultimi anni, con Ampere introdotta ufficialmente a maggio 2020 e Hopper a marzo 2022.

Le GPU A100, H100 e H200 più potenti al mondo basate su queste architetture hanno dominato il mercato mercato in espansione delle GPU per data center nel 2023, alimentato dalle iniziative emergenti di AI e ML.

Queste GPU hanno assicurato una quota di mercato di circa il 90% per in questo modo Nvidia è riuscita a creare un’attività di networking multimiliardaria anche nel 2023,

Oltre alle GPU e alle soluzioni di rete all’avanguardia (livello hardware), che offrono le migliori prestazioni della categoria per l’addestramento e l’interferenza di modelli linguistici di grandi dimensioni,

Nvidia ha un altro vantaggio competitivo chiave, vale a dire CUDA (Compute Unified Device Architecture), il modello di programmazione proprietario dell’azienda per l’utilizzo delle sue GPU (livello software).

Per sfruttare in modo efficiente le capacità di elaborazione parallela delle GPU Nvidia, gli sviluppatori devono accedervi tramite una piattaforma di programmazione GPU.

Farlo attraverso modelli generali e aperti come OpenCL è un processo più dispendioso in termini di tempo e di impegno da parte degli sviluppatori rispetto al semplice utilizzo di CUDA, che fornisce accesso hardware di basso livello risparmiando dettagli complessi per gli sviluppatori grazie all’uso di API semplici. API sta per Application Programming Interface e contiene una serie di regole su come i diversi componenti software possono interagire tra loro.

L’uso di API ben definite semplifica drasticamente il processo di utilizzo delle GPU Nvidia per attività di elaborazione accelerate.

Nvidia ha investito molto nella creazione di librerie CUDA specifiche per attività specifiche per migliorare ulteriormente l’esperienza degli sviluppatori.

CUDA è stato inizialmente rilasciato nel 2007, da allora molte spese di ricerca e sviluppo sono state destinate alla creazione di un’esperienza fluida per l’utilizzo delle GPU Nvidia.

Attualmente, CUDA è nel cuore dell’ecosistema software AI, proprio come le GPU A100, H100 e H200 nel cuore dell’ecosistema hardware.

La maggior parte dei documenti accademici sull’intelligenza artificiale hanno utilizzato l’accelerazione CUDA durante la sperimentazione con le GPU (che ovviamente erano GPU Nvidia) e la maggior parte delle aziende utilizza CUDA durante lo sviluppo dei propri copiloti basati sull’intelligenza artificiale.

Nel frattempo, i ricercatori di machine learning sognano un mondo in cui possano creare il loro modello in PyTorch e non doversi preoccupare della programmazione a livello di GPU a parte chiamare un paio di librerie esterne. 

Vogliono essere in grado di compilare qualsiasi modello arbitrario e farlo funzionare ad alte prestazioni su più chip.

L’obiettivo finale è che il ricercatore debba solo definire il parallelismo della pipeline e del tensore che si verifica tra i nodi e consentire che la generazione di codice di basso livello venga lasciata allo stack del compilatore. 

Per chi si allena con modelli linguistici piuttosto piccoli, questo è già il caso di Nvidia. Con l’aumento dei modelli e dei cluster, esistono più kernel CUDA personalizzati e comunicazioni pianificate manualmente. Ogni altro stack software non è neanche lontanamente vicino a offrire ciò che fa Nvidia. 

Anche se i concorrenti riuscissero a trovare valide alternative GPU, la creazione di un ecosistema software simile come CUDA potrebbe richiedere diversi anni.

Quando prendono decisioni di investimento nell’infrastruttura AI, CFO e CTO devono tenere conto dei costi degli sviluppatori e anche del livello di supporto per l’infrastruttura hardware e software, dove Nvidia si distingue dalla massa.

Anche se da un lato l’acquisto di GPU Nvidia comporta un prezzo elevato, dall’altro l’adesione al suo ecosistema presenta molti vantaggi in termini di costi.

Ciò migliora sostanzialmente il costo totale delle operazioni, il che a mio avviso rappresenta un forte vantaggio in termini di vendite.

Per ora, il mondo si è accontentato dell’ecosistema Nvidia, dubito che molte aziende correrebbero il rischio e lascerebbero dietro di sé una soluzione ben collaudata, chi rischirebbe i suoi Target, insomma um po come accade con le blasonate societa’ di consulenza Americane, chi si prende la responsabilita’ di perdere il bonus di fine anno a favore di una strategia di medio termine?!

Comunque qualcosa sta accadendo nel mercato : MosaicML, che è stata appena acquisita da DataBricks per 1,3 miliardi di dollari MosaicML si è concentrata sulla fornitura di strumenti e infrastrutture per rendere più semplice ed efficiente l’addestramento di modelli linguistici di grandi dimensioni, modelli di generazione di immagini e altro ancora.

Eliminano gran parte delle difficoltà derivanti dall’esecuzione di modelli linguistici di grandi dimensioni, dalla preparazione dei dati alla formazione fino alla gestione dell’infrastruttura.

Un’altra più importante minaccia competitiva nel 2024 dovrebbe provenire dai maggiori clienti di Nvidia, gli hyperscaler, ovvero Amazon, Microsoft e Alphabet/Google.

Tutte queste aziende sono riuscite a sviluppare i propri chip AI specifici per la formazione e l’inferenza LLM. Microsoft ha introdotto Maia a novembre e

Google ha presentato il suo ultimo modello di intelligenza artificiale, Gemini 1.5, che presenta quella che l’azienda chiama una finestra di contesto “sperimentale” da un milione di token. 

La nuova funzionalità consente a Gemini 1.5 di elaborare passaggi di testo estremamente lunghi – fino a un milione di caratteri – per comprenderne contesto e significato. Ciò fa impallidire i precedenti sistemi di intelligenza artificiale come Claude 2.1 e GPT-4 Turbo, che raggiungono rispettivamente un massimo di 200.000 e 128.000 token.

C’è ancora molta strada da fare prima che inizino ad alimentare i carichi di lavoro dei clienti, anche se Microsoft prevede di offrire Maia come alternativa per i clienti Azure .

Amazon è diverso da questo punto di vista, poiché la linea di chip AI dell’azienda (Trainium e Inferentia) è sul mercato ormai da alcuni anni.

La società ha recentemente annunciato un’importante partnership strategica con la principale startup di intelligenza artificiale Anthropic, dove Anthropic si è impegnata a utilizzare i chip Trainium e Inferentia per i suoi modelli futuri. Sebbene Amazon sia uno dei principali investitori nella startup, ciò è una prova evidente del fatto che la linea di chip AI dell’azienda ha raggiunto un buon livello di affidabilità.

L’azienda ha recentemente lanciato il suo nuovo chip Trainium2, che potrebbe conquistare parte del mercato della formazione LLM quest’anno poiché i clienti AWS più attenti ai costi potrebbero utilizzare questi chip come un’altra opzione per Nvidia.

Tuttavia, è importante notare che il lato software discusso in precedenza deve tenere il passo anche con le innovazioni hardware, il che potrebbe rallentare il processo di adozione diffusa di questi chip.

Un segnale importante che Amazon è lungi dal soddisfare la crescente domanda di intelligenza artificiale solo attraverso i propri chip è la partnership recentemente rafforzata dell’azienda con Nvidia.

Jensen Huang si è unito ad Adam Selipsky, CEO di AWS, sul palco durante il suo discorso chiave su AWS re: Invent, in cui le aziende hanno annunciato crescenti sforzi di collaborazione in diversi campi. Nelle recenti chiamate sugli utili di Nvidia, abbiamo sentito molto parlare di partnership con Microsoft, Google o Oracle, ma AWS è stata menzionata raramente.

Questi recenti annunci su una maggiore collaborazione mostrano che Amazon deve ancora fare molto affidamento su Nvidia per rimanere competitivo nello spazio dell’intelligenza artificiale in rapida evoluzione. Credo che questo sia un forte segnale del fatto che Nvidia dovrebbe continuare a dominare lo spazio dell’hardware AI nei prossimi anni.

Infine, un’interessante minaccia competitiva per Nvidia è Huawei sul mercato cinese a causa delle restrizioni introdotte dagli Stati Uniti sulle esportazioni di chip legati all’intelligenza artificiale.

Nvidia ha dovuto rinunciare a fornire al mercato cinese i suoi chip AI più avanzati, che rappresentavano costantemente il 20-25% delle entrate dei data center dell’azienda.

Si dice che l’azienda abbia già ordini per questi chip per un valore di oltre 5 miliardi di dollari per il 2024, che ora sono in discussione. Nvidia ha agito rapidamente e prevede di iniziare la produzione di massa dei chip H20, L20 e L2 sviluppati appositamente per il mercato cinese già nel secondo trimestre di quest’anno.

Sebbene il chip H20 sia in una certa misura una versione ridotta del chip H100, utilizza in parte la tecnologia del chip H200 recentemente introdotto, che presenta anche alcuni vantaggi rispetto all’H100. Ad esempio, sulla base di una semi-analisi, l’H20 è il 20% più veloce nell’interferenza LLM rispetto all’H100, quindi è ancora un chip molto competitivo.

La grande domanda è come affronteranno questa situazione i grandi clienti cinesi come Alibaba Baidu, Tencent o ByteDance che fino ad ora hanno fatto molto affidamento sull’ecosistema AI di Nvidia.

Attualmente, l’alternativa Nvidia più valida per quanto riguarda i chip AI è la famiglia Huawei Ascend sul mercato cinese, da cui spicca l’Ascend 910, le cui prestazioni si avvicinano all’H100 di Nvidia.

Baidu ha già ordinato una quantità maggiore di questi chip lo scorso anno come primo passo per ridurre la sua dipendenza da Nvidia, e anche altri grandi nomi tecnologici cinesi dovrebbero seguire.

Tuttavia, dal 2020 Huawei non può fare affidamento su TSMC per produrre i suoi chip a causa delle restrizioni statunitensi, spetta principalmente alla cinese SMIC produrli. Ci sono ancora notizie contrastanti su come SMIC potrebbe gestire la produzione di massa di chip IA all’avanguardia, ma diverse fonti (1, 2, 3) suggeriscono che l’industria cinese di produzione di chip è indietro di diversi anni.

Inoltre, un rischio significativo per SMIC e i suoi clienti è che gli Stati Uniti possano inasprire ulteriormente le sanzioni sulle apparecchiature utilizzate nella produzione di chip, limitando così la capacità dell’azienda di continuare a fornire i chip AI più avanzati di Huawei. Ciò potrebbe lasciare i giganti della tecnologia con i chip H20 di Nvidia come l’opzione migliore. Inoltre, negli ultimi anni gli sviluppatori cinesi si sono già abituati a CUDA, che a breve termine preferisce l’utilizzo dei chip Nvidia.

Tuttavia, in questo caso c’è anche un importante fattore di rischio per i giganti tecnologici cinesi, ovvero che gli Stati Uniti inaspriscano ulteriormente le restrizioni sulle esportazioni di Nvidia, il che li lascerebbe vulnerabili nella corsa all’intelligenza artificiale.

Secondo fonti del WSJ, le aziende cinesi non sono così entusiaste dei chip declassati di Nvidia, il che dimostra che potrebbero percepire l’utilizzo dei chip di Nvidia come un rischio maggiore.

“Le persone potenti vogliono sapere cosa sta succedendo, ma non vogliono spendere quindici minuti a leggerlo.  “

Di questo discutevo con il capo redattore ieri. Fine della prima puntata.

A che punto siamo con l’Intelligenza Generativa

Essendo una persona che ha ricercato, scritto e seguito da vicino l’evoluzione dell’intelligenza artificiale generativa (GenAI) e il modo in cui viene implementata negli ambienti aziendali del mondo reale, non smette mai di stupirmi della rapidità con cui sta cambiando il panorama intorno a noi. Idee e concetti che solo pochi mesi fa sembravano lontani anni fa, come la possibilità di eseguire modelli di base direttamente sui dispositivi client, sono già qui. Allo stesso tempo, anche alcune delle nostre aspettative iniziali su come la tecnologia potrebbe evolversi e essere implementata stanno cambiando, e le implicazioni potrebbero essere grandi.

Nel caso dello sviluppo tecnologico di base e dell’implementazione di GenAI, ad esempio, c’è stato un crescente riconoscimento del fatto che il processo in due fasi di addestramento del modello e inferenza del modello non sta avvenendo nel modo in cui siamo stati portati a credere. In particolare, risulta che solo una manciata di aziende sta costruendo i propri modelli di base e formandoli da zero. Invece, la stragrande maggioranza del lavoro svolto riguarda la personalizzazione dei modelli esistenti.

Mentre alcuni potrebbero sostenere che la differenza tra la formazione e la personalizzazione di cose come i modelli linguistici di grandi dimensioni (LLM) è una questione di semantica, in verità implicano un impatto molto maggiore. Innanzitutto, questa tendenza evidenzia il fatto che solo le aziende più grandi hanno le risorse e il denaro non solo per costruire questi modelli da zero, ma anche per mantenerli ed evolverli.

Si tratta di aziende come Microsoft , Google, Amazon, Meta , Salesforce , insieme alle aziende in cui scelgono di investire e con cui collaborano, come ad esempio OpenAI, Anthropic, ecc.: sono quelli che svolgono la maggior parte del lavoro di creazione del modello.

Certo, ci sono un sacco di startup e altre aziende più piccole che stanno lavorando duramente per creare i propri modelli di base, ma ci sono domande crescenti su quanto questi tipi di modelli di business siano fattibili nel lungo periodo. In altre parole, il mercato assomiglia sempre più all’ennesimo caso di grande crescita delle grandi aziende tecnologiche.

Le ragioni di ciò vanno oltre i fattori tipici della disponibilità di competenze, dell’esperienza con la tecnologia e della fiducia nei grandi marchi. In effetti, a causa dell’ampia portata e influenza che gli strumenti GenAI stanno già iniziando ad avere (e che si prevede si espanderanno ulteriormente), ci sono crescenti preoccupazioni sulle questioni legali e sui fattori correlati.

Per dirla semplicemente, se le grandi organizzazioni iniziano a dipendere da uno strumento che probabilmente avrà un profondo impatto sulla loro attività, devono sapere che dietro quello strumento c’è una grande azienda a cui possono attribuire la colpa nel caso in cui qualcosa vada male. sbagliato.

Questo è molto diverso da molti altri nuovi prodotti tecnologici che spesso venivano introdotti nelle organizzazioni tramite startup e altre piccole aziende. La portata che ci si aspetta che GenAI abbia è semplicemente troppo profonda in un’organizzazione per essere affidata a chiunque tranne che a una grande e consolidata azienda tecnologica.

Eppure, nonostante questa preoccupazione, uno degli altri sviluppi sorprendenti nel mondo della GenAI è stata la rapida adozione e utilizzo di modelli open source da luoghi come Hugging Face. Sia i fornitori di tecnologia che le aziende stanno collaborando con Hugging Face a un ritmo incredibilmente rapido a causa della velocità con cui le nuove innovazioni vengono introdotte nei modelli aperti che ospitano.

Allora, come conciliare questi sviluppi apparentemente incongrui e incompatibili?

Si scopre che molti dei modelli di Hugging Face non sono del tutto nuovi, ma sono invece personalizzazioni di modelli esistenti. Quindi, ad esempio, puoi trovare cose che sfruttano qualcosa come il modello Llama 2 open source e sempre più popolare di Meta come base di riferimento, ma poi vengono adattati a un particolare caso d’uso.

Di conseguenza, le aziende possono sentirsi a proprio agio nell’usare qualcosa che deriva da una grande azienda tecnologica ma che offre il valore unico aggiunto da altri sviluppatori open source. È uno dei tanti esempi delle opportunità e dei vantaggi unici che il concetto di separare il “motore” dall’applicazione, cosa che GenAI consente agli sviluppatori di fare, sta ora offrendo.

Dal punto di vista del mercato, ciò significa che le più grandi organizzazioni tecnologiche probabilmente si daranno battaglia per produrre i migliori “motori” per GenAI, ma altre aziende e sviluppatori open source potranno poi sfruttare tali motori per il proprio lavoro. Le implicazioni di ciò, a loro volta, saranno probabilmente grandi quando si tratta di cose come i prezzi, il packaging, le licenze, i modelli di business e l’aspetto economico della GenAI.

In questa fase iniziale, non è chiaro esattamente quali saranno queste implicazioni.

Uno sviluppo probabile, tuttavia, è la separazione di questi motori di base del modello principale e delle applicazioni o personalizzazioni dei modelli che si trovano sopra di essi quando si tratta di creare prodotti: sicuramente qualcosa che vale la pena guardare.

È interessante notare che questa separazione dei modelli dalle applicazioni potrebbe anche avere un impatto sul modo in cui i modelli di base vengono eseguiti direttamente sui dispositivi. Una delle sfide di questo esercizio è che i modelli di base richiedono una grande quantità di memoria per funzionare in modo efficiente. Inoltre, molte persone credono che i dispositivi client dovranno eseguire più modelli di base contemporaneamente per eseguire tutte le varie attività che GenAI dovrebbe consentire.

Il problema è che, sebbene le specifiche di memoria di PC e smartphone siano certamente aumentate negli ultimi anni, sarà comunque difficile caricare più modelli di base in memoria contemporaneamente su un dispositivo client.

Una possibile soluzione è selezionare un unico modello di base che finisca per alimentare più applicazioni indipendenti. Se così fosse, solleverebbero interrogativi interessanti sulle partnership tra produttori di dispositivi e fornitori di modelli di fondazione e sulla capacità di differenziarsi tra loro.

Oltre ai cambiamenti nell’addestramento dei modelli, ci sono stati alcuni sviluppi interessanti nel mondo dell’inferenza. In particolare, tecnologie in rapida crescita come RAG (Retrieval Augmented Generation) forniscono un modo potente per personalizzare i modelli sfruttando i dati di un’organizzazione.

Fondamentalmente, il modo in cui RAG funziona è che fornisce un meccanismo per eseguire una query tipica a un LLM, ma la risposta viene generata dalla cache dei contenuti originali di un’organizzazione. In altre parole, RAG sfrutta le competenze apprese da un modello completamente addestrato in termini di regole da utilizzare per selezionare il contenuto.

Quindi costruisce la sua risposta combinando la propria logica e la comprensione del linguaggio di base con il materiale unico dell’organizzazione che gestisce lo strumento.

La bellezza di questo approccio è duplice. Innanzitutto, offre un modo significativamente più semplice e meno dispendioso in termini di risorse per personalizzare un modello. In secondo luogo, riduce contemporaneamente il rischio di allucinazioni e altri problemi di contenuto generando la risposta solo dal set di dati personalizzato e non dall’insieme molto più ampio di contenuti utilizzati per creare e addestrare inizialmente il modello.

Di conseguenza, l’approccio RAG viene rapidamente adottato da molte organizzazioni e sembra essere un fattore chiave per gli sviluppi futuri. Un’altra cosa interessante è che cambia la natura del modo in cui viene eseguita l’inferenza e sposta l’attenzione su dove sono richieste le risorse di elaborazione dal cloud al data center e/o ai dispositivi client.

Naturalmente, data la rapida evoluzione del mondo GenAI, è certamente possibile che gran parte di ciò che ho sostenuto qui possa essere irrilevante o un punto controverso entro la metà del prossimo anno.

Tuttavia, sembra chiaro che importanti cambiamenti si stanno già verificando e sarà importante che gli operatori del settore inizino a spostare i loro messaggi attorno a tali cambiamenti.

Il passaggio dall’attenzione all’addestramento e all’inferenza dei modelli a uno che metta in risalto la personalizzazione dei modelli, ad esempio, sembra tardivo in base alle realtà del mercato odierno. Allo stesso modo, anche fornire maggiori informazioni su tecnologie come RAG e la loro potenziale influenza sul processo di inferenza sembra fondamentale per aiutare a educare il mercato.

Non ci sono più molti dubbi sull’impatto che si prevede che GenAI avrà sulle aziende di tutte le dimensioni. Il percorso per raggiungere quel livello di impatto e il ritmo con cui sarà raggiunto, tuttavia, sono ancora molto indefiniti.

Alla luce di ciò, qualsiasi sforzo che l’industria tecnologica potrà compiere per educare meglio le persone su come la GenAI si sta evolvendo, anche attraverso messaggi migliori e più raffinati, sarà estremamente importante.

Il processo non sarà facile, ma speriamo che sempre più aziende siano disposte ad accettare la sfida.

Stability AI annuncia l’arrivo di Stable Diffusion 3, una nuova generazione di AI per la creazione di immagini

Stability AI ha annunciato il lancio di  Stable Diffusion 3, l’ultima versione del suo modello AI per la generazione di immagini.

Stability AI ha affermato che il nuovo modello, che non è ancora ampiamente disponibile, migliora la qualità dell’immagine, funziona meglio con istruzioni contenenti più argomenti e può inserire testo più accurato come parte dell’immagine generata. L’aspetto tipografico è sempre stato il tallone d’achille non solo dei precedenti modelli di Stable Diffusion ma anche dei rivali come DALL-E 3  e Midjourney che hanno lavorato proprio su questo aspetto nelle loro versioni più recenti.

L’annuncio arriva pochi giorni dopo che il più grande rivale di Stability AI, OpenAI, ha presentato Sora , un nuovissimo modello di intelligenza artificiale in grado di generare video quasi realistici e ad alta definizione da semplici istruzioni di testo.

Non è chiaro quando Stable Diffusion 3 verrà rilasciato al pubblico, ma fino ad allora chiunque sia interessato può iscriversi a una lista d’attesa 

Prompt: “Night photo of a sports car with the text “SD3” on the side, the car is on a race track at high speed, a huge road sign with the text “faster”. Made with SD3. Credits: @andrekerygma
Prompt: “A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background”. Made with SD3. Credits: @andrekerygma
Prompt: “Studio photograph closeup of a chameleon over a black background”. Made with SD3: Credits: @StabilityAI

Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!

[newsletter_form type=”minimal”]

Sora vs DALL-E: generatore di video e di immagini a confronto

Uno degli argomenti mainstream in queste ore è indubbiamente il nuovo modello di AI generativa Sora, appena lanciato da OpenAI. Siccome il suo funzionamento è molto simile allo strumento AI di generazione di immagini DALL-E sempre realizzato da OpenAI, qualcuno ha voluto mettere a confronto i due sistemi per vedere che tipo di output restituissero.

La sfida è semplice: lo stesso prompt di testo utilizzato per creare uno dei video ad alta definizione prodotti da Sora in questa fase di test viene utilizzato per capire quale risultato mostrerà DALL-E.

Di seguito alcune simulazioni:

Scopri di più sulla nostra politica di embedding.

Prompt challenge: 10 tool di Intelligenza Artificiale generativa a confronto

L’evoluzione dell’Intelligenza Artificiale (AI) ha aperto nuovi orizzonti creativi, influenzando profondamente il modo in cui concepiamo e produciamo immagini. In questo contesto, esploreremo una serie di tool di Intelligenza Artificiale all’avanguardia, focalizzandoci sulla loro capacità di trasformare testo in immagini sorprendenti e ridefinire i limiti dell’espressione visiva.

Partendo da uno stesso identico prompt vedremo come i vari algoritmi di Intelligenza Artificiale interpretano lo sviluppo di immagini.

Prompt

1) Midjourney

Credit: Chase Lean

2) Dall-E

Credit: Chase Lean

3) Adobe Firefly

Credit: Chase Lean

4) LensGo

Credit: MOAI

5) Merlin

Credit: JT Loh

6) Dream AI

Credit: Jim Burrows

7) Stable Diffusion

Credit: José Andrés Martínez Silva

8) ArtFlow.AI

Credit: A Wojcicki

9) Leonardo

Credit: Rivista AI

10) Freepik

Credit: Rivista AI

A voi quale piace di più?

Dall-E, Midjourney e Adobe Firefly a confronto

L’avvento dell’Intelligenza Artificiale generativa ha rivoluzionato il modo in cui concepiamo e creiamo immagini. Attraverso modelli avanzati, come DALL-E, Midjourney e Adobe Firefly, l’AI sta dando vita a nuove possibilità nell’ambito della produzione visiva.

Midjourney: un viaggio nel mondo dell’Intelligenza Artificiale generativa per la creazione di immagini

Midjourney, uno dei pionieri nell’ambito della creazione di immagini da testo, ha dimostrato progressi costanti nelle versioni successive. Tuttavia, l’accesso gratuito a questa potente risorsa è stato recentemente interrotto dagli sviluppatori, suscitando domande sulla disponibilità di alternative altrettanto valide. Fortunatamente, il panorama offre numerose alternative competitive, superando non solo in capacità di creazione, ma anche in personalizzazione e accessibilità dell’interfaccia.

DALL-E: un passo avanti nell’universo dell’immagine

DALL-E, sviluppato da OpenAI (la stessa azienda dietro ChatGPT), emerge come una delle alternative più interessanti a Midjourney. Questo generatore di immagini si distingue per la sua abilità nella creazione di immagini fotorealistiche, benché richieda una maggiore precisione nell’inserimento del testo di partenza, rispetto al suo predecessore.

Il punto forte di DALL-E è la sua capacità di mescolare concetti, qualità e stili, consentendo la creazione di immagini uniche. Dagli ampliamenti delle immagini alla manipolazione dei colori e degli stili degli elementi, questo strumento offre un’ampia gamma di possibilità, sebbene richieda un impegno più approfondito.

Adobe Firefly: l’ambiziosa incursione di Adobe nel mondo dell’Intelligenza Artificiale

Adobe Firefly rappresenta l’audace ingresso di Adobe nel dominio della generazione di contenuti attraverso modelli IA, integrato persino in Google Bard per la creazione di immagini. Questo progetto ambizioso offre un set di funzioni impressionanti, tra cui la creazione d’immagini da testo, l’upscale delle immagini, la ricolorazione vettoriale, effetti di testo, l’inpainting, lo sketch-to-image, e altro ancora.

Attualmente in fase beta, alcune funzioni di Adobe Firefly sono ancora in sviluppo. Per utilizzarlo, basta accedere al sito di Adobe Firefly con il proprio account Adobe, seguire il tutorial e approvare i termini di utilizzo. Inserendo un prompt di testo in inglese, si possono generare immagini in diverse varianti, selezionando il tipo di contenuto desiderato: arte, grafica, foto.

L’intelligenza generativa sta apportando cambiamenti rivoluzionari nel modo in cui concepiamo e creiamo immagini, e con opzioni come DALL-E, Midjourney e Adobe Firefly, si prospetta un futuro affascinante nell’evoluzione dell’arte visiva.

Secondo un’analisi condotta da un’esperto di intelligenza artificiale, Chase Lean, messe a confronto le tre applicazioni, Firefly 2 genera foto più realistiche rispetto a Midjourney e DALL-E. Eccelle anche nelle riprese di prodotti, nel design di interni, nella generazione di testi e nelle foto di animali selvatici, mentre Midjourney ha prodotto foto di paesaggi di qualità superiore con un’illuminazione più suggestiva.

Vediamo le sue simulazioni.

Credit: Chase Lean
Credit: Chase Lean

Credit: Chase Lean

Credit: Chase Lean

Credit: Chase Lean

Credit: Chase Lean

Uno sguardo al futuro del cinema: 20 video creati con l’Intelligenza Artificiale.

Siate pronti a immergervi in un’esperienza visiva senza precedenti?

La magia dell’Intelligenza Artificiale si manifesta attraverso ogni fotogramma, rivelando nuove prospettive, sfide e ispirazioni. Diamo il benvenuto ad una nuova frontiera cinematografica, dove l’arte e la tecnologia danzano in armonia, plasmando il futuro della settima arte.

I video che vi presentiamo sono generati interamente con l’ausilio di strumenti di Intelligenza Artificiale e incarnano la perfetta sinergia tra potenza computazionale e ingegno umano, perché c’è sempre la mente creativa di un essere umano ad indirizzare i tool di Intelligenza Artificiale su quello che debbono elaborare. Attraverso algoritmi avanzati, reti neurali e deep learning, siamo già oggi in grado di plasmare visioni, storie e mondi in modi mai visti prima.

Questa galleria rappresenta una testimonianza del potenziale dell’AI nel contesto cinematografico. Dai paesaggi surreali alle narrazioni complesse, ogni video è una testimonianza di come si possano esplorare i confini dell’arte attraverso la lente dell’Intelligenza Artificiale, la cui magia si manifesta attraverso ogni fotogramma, rivelando nuove prospettive, sfide e ispirazioni.

Nota di embedding

1)

2)

3)

4)

5)

https://twitter.com/i/status/1743277420478902762

6)

7)

8)

9)

10)

11)

12)

13)

14)

15)

16)

17)

18)

19)

20)

Scenario: come si crea un’Influencer con l’Intelligenza Artificiale

Abbiamo visto come l’evoluzione del mondo digitale abbia determinato una trasformazione radicale del ruolo dell’influencer tradizionale, dando origine a una nuova categoria: l’influencer virtuale generato con l’Intelligenza Artificiale.

Questi personaggi, generati al computer e esistenti esclusivamente online, sono una realtà consolidata da lungo tempo (la prima popstar virtuale, Kyoko Date, è stata creata in Giappone nel 1996) ma oggi, grazie alla convergenza di tecnologie e discipline come Intelligenza Artificiale, computer grafica, realtà aumentata, motion capture e machine learning, siamo arrivati alla possibilità di creare personaggi esclusivamente digitali sempre più realistici, espressivi e interattivi, capaci di generare contenuti originali e di interagire con il pubblico.

Gli influencer virtuali – siano essi creati da singoli artisti, piccole agenzie, grandi aziende o agenzie specializzate in questo settore – hanno una loro identità, una loro storia, una propria personalità, così come uno stile e dei valori che possono essere propri o distintivi del brand che ha creato l’avatar virtuale, rendendoli unici e distintivi, con i propri canali social, dove condividere foto, video, storie, live e altri contenuti che mostrano la loro vita quotidiana, passioni, opinioni e, appunto, collaborazioni con i brand.

Ma come si crea un Influencer Virtuale con l’Intelligenza Artificiale?

Ce lo facciamo spiegare, step by step, da Emmanuel de Maistre, CEO e founder di Scenario, un’app di AI generativa che, sebbene sia pensata per sviluppatori e creatori di videogiochi, si adatta benissimo a questa funzione.

Ovviamente sono diverse le app di Intelligenza Artificiale generativa che possono essere utilizzate per creare un’influencer virtuale, Chat GPT e Bard ad esempio possono essere utilizzati per generare idee di contenuto, temi, post sui social media, didascalie e script video assieme a tool come Dall-E o Midjourney per generare immagini, o anche piattaforme come Synthesia per automatizzare il movimento delle labbra in base a uno script predefinito per creare contenuti video o conversare con i propri follower, quel che è certo è che il marketing degli influencer virtuali è un segmento che sta diventando sempre più importante.

Google NotebookLM

Google NotebookLM è un assistente di ricerca e scrittura basato sull’intelligenza artificiale, recentemente reso disponibile in Italia e in oltre 200 paesi. Questo strumento, che utilizza il modello Gemini 1.5 Pro, offre diverse funzionalità utili, ma presenta anche alcune limitazioni. Di seguito sono elencati i pro e i contro di NotebookLM.

Pro

  • Analisi e Sintesi Avanzata: NotebookLM può analizzare fino a 50 documenti PDF contemporaneamente, ciascuno contenente oltre 500.000 parole, facilitando la sintesi e l’organizzazione delle informazioni1.
  • Interfaccia Intuitiva: L’interfaccia è simile a quella di Google Workspace, rendendo la navigazione e l’utilizzo semplici per gli utenti familiari con i prodotti Google.
  • Privacy e Sicurezza: I dati caricati non vengono utilizzati per addestrare il modello, garantendo che le informazioni sensibili rimangano private.
  • Supporto Multilingue: NotebookLM supporta oltre 100 lingue, rendendolo accessibile a una vasta gamma di utenti in tutto il mondo.
  • Funzionalità di Citazione: Include citazioni in linea dalle fonti utilizzate, facilitando la verifica e l’approfondimento delle informazioni.

Contro

  • Prodotto Sperimentale: Essendo ancora in fase di sviluppo, NotebookLM potrebbe presentare bug o limitazioni nelle sue funzionalità.
  • Dipendenza da Fonti Caricate: Gli utenti devono caricare manualmente i documenti e le fonti, il che potrebbe limitare l’efficacia per chi non ha accesso a una vasta gamma di materiali3.
  • Limitazioni di Elaborazione: Nonostante le sue potenti capacità, l’elaborazione è limitata ai documenti caricati, quindi non può accedere a informazioni esterne in tempo reale3.

Google NotebookLM rappresenta un passo avanti significativo nell’uso dell’IA per la gestione delle informazioni e la scrittura, ma gli utenti devono considerare le sue limitazioni e la sua natura sperimentale.

L’IA Trasforma i Router WiFi in Telecamere

I ricercatori della Carnegie Mellon University hanno sviluppato un sistema di intelligenza artificiale in grado di utilizzare i segnali Wi-Fi per rilevare e tracciare le forme e i movimenti delle persone in una stanza, anche attraverso i muri. Questa tecnologia funziona attraverso:

  • L’analisi della fase e dell’ampiezza dei segnali Wi-Fi mentre rimbalzano su oggetti, comprese le persone
  • L’utilizzo di un sistema chiamato DensePose, sviluppato dai ricercatori di Facebook AI, che mappa i pixel sulla superficie del corpo umano
  • L’uso di una rete neurale profonda per tradurre i dati dei segnali Wi-Fi in coordinate precise sui corpi umani

I ricercatori hanno utilizzato tre router Wi-Fi da 30 dollari e tre ricevitori allineati per rimbalzare i segnali nella stanza. Il sistema filtra gli oggetti statici e si concentra sui segnali riflessi da oggetti in movimento, ricostruendo efficacemente la posa di una persona in un’immagine simile a un radar.

Vantaggi e Applicazioni

  • Protezione della Privacy: I segnali Wi-Fi non catturano immagini visive dettagliate come le telecamere
  • Costo-Efficienza: L’attrezzatura necessaria è relativamente economica e ampiamente disponibile
  • Superamento degli Ostacoli: I segnali Wi-Fi possono penetrare muri, cartongesso, recinzioni e cemento
  • Versatilità nelle Condizioni: A differenza delle telecamere, i sistemi Wi-Fi non sono influenzati da scarsa illuminazione o ostruzioni

Le applicazioni potenziali includono:

  • Sicurezza Domestica: Rilevamento di movimenti non autorizzati all’interno di un edificio
  • Cura degli Anziani: Monitoraggio del benessere di persone anziane che vivono in modo indipendente

Preoccupazioni e Limitazioni

  • Preoccupazioni sulla Privacy: La capacità di monitorare i movimenti attraverso i muri solleva significative preoccupazioni sulla privacy
  • Considerazioni Etiche: È fondamentale bilanciare i benefici con le protezioni della privacy per garantire un uso etico
  • Limitazioni Attuali: La tecnologia è limitata a modelli 2D e necessita di ulteriori sviluppi per migliorare risoluzione e accuratezza

In conclusione, mentre questa tecnologia di imaging Wi-Fi alimentata dall’IA offre soluzioni innovative, la sua implementazione deve essere guidata da una attenta considerazione delle implicazioni sulla privacy e sull’etica per prevenire abusi e garantire che benefici la società in modo responsabile.

Pagina 17 di 18

CC BY-NC-SA 4.0 DEED | Disclaimer Contenuti | Informativa Privacy | Informativa sui Cookie