Princess Prompt , ha utilizzato la più recente tecnologia di intelligenza artificiale tra cui Midjourney v6 e un upscaler per creare versioni AI dei personaggi dei Simpsons.
Princess Prompts ha utilizzato uno screenshot per ciascuno dei personaggi che voleva ricreare, poi ha utilizzato quell’immagine come suggerimento utilizzando i parametri “peso immagine”. Successivamente, ha descritto lo screenshot a Midjourney nel modo più “preciso e conciso” possibile.
Una volta generati tutti i personaggi, li ha inviati all’intelligenza artificiale Magnific.ai per aggiungere dettagli come la struttura della pelle, i capelli, le rughe, ecc. Il risulato e’ formidabile.
Per vedere il lavoro fotografico di Milie, vai sul suo sito web e su Instagram . Per i suoi esperimenti sull’intelligenza artificiale, controlla la sua pagina Facebook.
Dimentica la fatica di creare design e seguire tutorial. Scopri questi 9 straordinari siti web basati sull’intelligenza artificiale che ti permettono di realizzare presentazioni stupefacenti in soli 60 secondi!
In un mondo frenetico dove l’efficienza e la produttività sono fondamentali, la domanda di strumenti che semplificano i compiti e risparmiano tempo non è mai stata così alta. Quando si tratta di creare presentazioni, il tradizionale processo di lavoro di design e tutorial può essere lungo e noioso. Tuttavia, con l’avanzamento dell’Intelligenza Artificiale (AI), generare presentazioni è diventato più rapido e semplice che mai.
Ecco 9 siti web AI che possono generare presentazioni in soli 60 secondi, eliminando la necessità di lavoro di design manuale e tutorial lunghi:
Gamma: Un’applicazione AI che può creare presentazioni complete tramite chat o importazione di testo. Questo strumento si distingue come uno dei preferiti tra gli utenti per la facilità d’uso e l’efficienza. Gamma.app
SlideSpeak: Crea presentazioni da testo in modo rapido e senza sforzo. Questo sito semplifica il processo di creazione di presentazioni, rendendolo accessibile a tutti. SlideSpeak.co
Tome: Un chatbot AI progettato per creare presentazioni con varie integrazioni, inclusa Figma. Questo strumento offre un’esperienza senza soluzione di continuità per gli utenti che desiderano generare presentazioni in modo efficiente. Tome.app
Slides AI: Un add-on di Google Slides alimentato da AI che genera presentazioni da input di testo. Questo strumento è perfetto per coloro che desiderano automatizzare il processo di creazione di presentazioni. SlidesAI.io
Decktopus AI: Conosciuto come il generatore di presentazioni AI più avanzato al mondo, Decktopus AI offre una soluzione completa per creare presentazioni dinamiche in pochi secondi. Decktopus.com
Beautiful AI: Questa piattaforma aiuta gli utenti a preparare il loro lavoro per il successo semplificando il processo di creazione di presentazioni. Con Beautiful AI, creare presentazioni visualmente accattivanti è un gioco da ragazzi. Beautiful.AI
AI ChatGPT for Presentations: Crea facilmente bellissimi mazzi con ideazione e creazione di mazzi alimentati da AI. Questo strumento semplifica il processo di progettazione delle presentazioni, rendendolo efficiente ed efficace. Presentations.AI
Pitch: Uno strumento rapido ed efficace per le squadre per produrre e distribuire presentazioni visivamente accattivanti. Pitch semplifica il processo di creazione di presentazioni, consentendo alle squadre di collaborare senza soluzione di continuità. Pitch.com
DeckRobot AI: Genera centinaia di mazzi di PowerPoint in pochi secondi con DeckRobot AI. Questo strumento è perfetto per coloro che desiderano creare presentazioni in modo rapido ed efficiente. Deckrobot.com
Con questi siti web AI, creare presentazioni non è mai stato così facile. Sfruttando le capacità dell’AI, gli utenti possono risparmiare tempo, ottimizzare il proprio flusso di lavoro e produrre presentazioni visualmente sorprendenti in una frazione del tempo che tradizionalmente richiederebbe. Abbracciare questi strumenti innovativi può rivoluzionare il modo in cui vengono create le presentazioni, consentendo agli utenti di concentrarsi sul contenuto e sulla narrazione anziché sulle complessità del design. Dì addio allo spreco di tempo con il lavoro di design e i tutorial: questi siti web AI sono qui per rendere la creazione di presentazioni un gioco da ragazzi!
Adobe ha dichiarato l’altra settiamana (23 Aprile) che porterà il suo ultimo modello di imaging, Firefly Image 3 Model, su Photoshop.
l nuovo modello consentirà al popolare programma software di fotoritocco di incorporare Generative Fill with Reference Image, che consente agli utenti di aggiungere e rimuovere contenuti tramite messaggi di testo grazie a Firefly. Firefly Image 3 Model migliora la qualità fotorealistica e consente agli utenti di modificare meglio gli oggetti, inclusi più stili e una migliore precisione, ha affermato Adobe.
Photoshop sta inoltre convertendo il testo in immagine tramite la nuova funzione Genera immagine, consentendo agli utenti di ridurre i tempi di creazione del contenuto.
Firefly, il modello di intelligenza artificiale generativa di Adobe introdotto lo scorso ottobre , è stato utilizzato per creare più di 7 miliardi di immagini, ha affermato la società.
“Il flusso costante di innovazioni di Adobe nel campo dell’intelligenza artificiale generativa sta stimolando la domanda di tutta la community creativa, dagli studenti ai professionisti della creatività e alle aziende Fortune 500“, ha dichiarato David Wadhwani, presidente del Digital Media Business di Adobe. “Con l’ultima versione di Photoshop, il nuovo modello Firefly Image 3 e il recente lancio delle applicazioni mobili Express, stiamo portando la potenza dell’intelligenza artificiale ai creator quando e dove ne hanno bisogno“.
Iscriviti alla nostra newsletter settimanale per non perdere le ultime notizie sull’Intelligenza Artificiale.
Iterative RPO è un metodo sviluppato per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM) attraverso un processo iterativo di ottimizzazione delle preferenze. [1][4]
Il metodo si concentra sull’ottimizzazione della preferenza tra diverse ipotesi di catene di ragionamento (Chain-of-Thought, CoT) generate dal modello, identificando i passaggi di ragionamento vincenti e perdenti che portano alla risposta corretta. [1][4]
Attraverso iterazioni successive, il modello viene addestrato a generare passaggi di ragionamento seguiti dalle risposte finali, migliorando così le sue capacità di ragionamento. [1][4]
Questa tecnica ha dimostrato miglioramenti significativi in compiti come GSM8K, ARC-Challenge e MATH, aumentando le prestazioni e l’accuratezza in assenza di addestramento specifico su tali task. [1][4]
Iterative RPO si basa su metodi di ottimizzazione delle preferenze offline, come Direct Preference Optimization (DPO), che hanno dimostrato di essere efficaci nell’allineare i modelli linguistici pre-addestrati alle esigenze umane rispetto al semplice fine-tuning supervisionato. [1][2][3][5]
Quindi, in sintesi, Iterative RPO è un approccio innovativo che mira a potenziare le capacità di ragionamento dei grandi modelli linguistici attraverso un processo iterativo di ottimizzazione delle preferenze tra diverse ipotesi di catene di ragionamento.
OpenBioLLM-8B è un modello di linguaggio avanzato open source progettato specificamente per il dominio biomedico. Sviluppato da Saama AI Labs, questo modello utilizza tecniche all’avanguardia per raggiungere prestazioni all’avanguardia in una vasta gamma di compiti biomedici.
Specializzazione biomedica: OpenBioLLM-8B è adattato alle esigenze linguistiche e di conoscenza uniche dei campi medici e delle scienze della vita. È stato sottoposto a fine-tuning su un vasto corpus di dati biomedici di alta qualità, consentendogli di comprendere e generare testi con precisione e fluidità specifiche del dominio.
Prestazioni superiori: con 8 miliardi di parametri, OpenBioLLM-8B supera gli altri modelli di linguaggio biomedico open source di scale simili. Ha anche dimostrato risultati migliori rispetto a modelli proprietari e open source più grandi come GPT-3.5 e Meditron-70B nei benchmark biomedici.
Tecniche di formazione avanzate: OpenBioLLM-8B si basa sulle potenti basi dei modelli Meta-Llama-3-8B e Meta-Llama-3-8B. Incorpora il set di dati DPO e la ricetta di fine-tuning, nonché un set di dati di istruzioni mediche personalizzato e diversificato. I componenti chiave del pipeline di formazione includono:
Ottimizzazione delle politiche: Ottimizzazione diretta delle preferenze (DPO) Set di dati di classificazione: berkeley-nest / Nectar Set di dati di fine-tuning: set di dati di istruzioni mediche personalizzato (abbiamo in programma di rilasciare un set di dati di formazione di esempio nel nostro prossimo articolo; resta aggiornato) Questa combinazione di tecniche all’avanguardia consente a OpenBioLLM-8B di allinearsi alle capacità e alle preferenze chiave per le applicazioni biomediche.
La classifica Open Medical LLM mira a tracciare, classificare e valutare le prestazioni dei modelli linguistici di grandi dimensioni (LLM) nelle attività di risposta alle domande mediche. Valuta gli LLM in una vasta gamma di set di dati medici, tra cui MedQA (USMLE), PubMedQA, MedMCQA e sottoinsiemi di MMLU relativi alla medicina e alla biologia. La classifica offre una valutazione completa delle conoscenze mediche e delle capacità di risposta alle domande di ciascun modello
Iscriviti alla nostra newsletter settimanale per non perdere le ultime notizie sull’Intelligenza Artificiale.
Google afferma che i suoi modelli sanitari AI Med-Gemini battono GPT-4
Google e DeepMind hanno pubblicato lunedì un documento che descrive Med-Gemini, un gruppo di modelli di intelligenza artificiale avanzati destinati ad applicazioni sanitarie.
Il documento descrive Med-Gemini, una famiglia di modelli multimodali altamente capaci specializzati in medicina, basati sulle solide capacità di Gemini in ragionamento multimodale e a lungo contesto.
Med-Gemini è in grado di utilizzare la ricerca sul web in modo fluido e può essere adattato in modo efficiente a nuove modalità utilizzando encoder personalizzati. Il testo riporta i risultati dell’evaluazione di Med-Gemini su 14 benchmark medici, stabilendo nuovi record di performance in 10 di essi e superando la famiglia di modelli GPT-4 in ogni benchmark dove è possibile un confronto diretto, spesso con un ampio margine.
Il miglior modello Med-Gemini ha raggiunto una precisione del 91,1% sul popolare benchmark MedQA (USMLE), utilizzando una strategia di ricerca guidata dall’incertezza. Inoltre, Med-Gemini ha migliorato le prestazioni di GPT-4V su 7 benchmark multimodali, tra cui NEJM Image Challenges e MMMU (salute e medicina), con un margine medio relativo del 44,5%.
Le capacità di lungo contesto di Med-Gemini sono state dimostrate attraverso prestazioni di ricerca needle-in-a-haystack da lunghe cartelle cliniche de-identificate e question answering su video medici, superando i metodi precedenti che utilizzano solo l’apprendimento in-context.
Med-Gemini ha superato gli esperti umani in compiti come la sintesi di testi medici, dimostrando anche un potenziale promettente per il dialogo medico multimodale, la ricerca e l’educazione. Tuttavia, ulteriori valutazioni rigorose saranno cruciali prima di un’effettiva implementazione nel mondo reale in questo dominio critico per la sicurezza.
Med-Gemini ha fatto un notevole passo avanti nell’abilità di catturare contesto e temporalità, superando una delle maggiori sfide nell’addestramento degli algoritmi medici. A differenza degli attuali modelli di intelligenza artificiale relativa alla salute, Med-Gemini è in grado di comprendere il contesto e il contesto dei sintomi, nonché i tempi e la sequenza della loro insorgenza. Questa capacità è fondamentale per differenziare malattie lievi da quelle potenzialmente pericolose per la vita.
Per raggiungere questo obiettivo, gli sviluppatori di Google hanno adottato un approccio verticale per verticale, creando una “famiglia” di modelli, ciascuno dei quali ottimizza uno specifico dominio o scenario medico. Questo approccio ha portato a una precisione migliore e più sfumata, nonché a un ragionamento più trasparente e interpretabile.
Inoltre, Med-Gemini incorpora un livello aggiuntivo: una ricerca basata sul web di informazioni aggiornate. Questa funzionalità consente l’integrazione dei dati con conoscenze esterne, integrando i risultati online nel modello. Ciò garantisce che Med-Gemini sia sempre allo stesso standard dei medici, che si aspettano di tenersi al passo con le ricerche recenti.
Med-Gemini rappresenta un significativo passo avanti nell’abilità di catturare contesto e temporalità, superando le sfide contestuali nell’addestramento degli algoritmi medici. L’approccio verticale per verticale e l’integrazione di una ricerca basata sul web di informazioni aggiornate hanno portato a una precisione e un ragionamento migliori e più trasparenti.
Iscriviti alla nostra newsletter settimanale per non perdere le ultime notizie sull’Intelligenza Artificiale.
Oracle ha annunciato giovedì che la sua tecnologia di database per l’intelligenza artificiale, Database23ai, è ora “generalmente disponibile” per gli sviluppatori.
La disponibilità della nuova tecnologia consentirà di trovare chatbot e altri software di intelligenza artificiale in modo più semplice utilizzando AI Vector Search di Oracle.
“Le nuove funzionalità AI Vector Search consentono ai clienti di combinare in modo sicuro la ricerca di documenti, immagini e altri dati non strutturati con la ricerca di dati aziendali privati, senza spostarli o duplicarli”, ha affermato la società in una nota .
Oracle
“Oracle Database 23ai porta gli algoritmi AI dove risiedono i dati, invece di dover spostare i dati dove risiedono gli algoritmi AI. Ciò consente all’IA di funzionare in tempo reale nei database Oracle e migliora notevolmente l’efficacia, l’efficienza e la sicurezza dell’intelligenza artificiale.”
Oracle
Il dirigente di Oracle Juan Loaiza lo ha definito un “punto di svolta” per le imprese, aggiungendo che aumenterà la produttività.
Iscriviti alla nostra newsletter settimanale per non perdere le ultime notizie sull’Intelligenza Artificiale.
A fine febbraio, Microsoft ha condotto un imponente round di finanziamento di Serie B, raccogliendo 675 milioni di dollari nella Bay Area. Recentemente, il gigante tecnologico ha reso nota la sua collaborazione con Sanctuary AI, celebre per il suo robot umanoide Phoenix.
Questa sinergia punta al cuore dell’interesse di Microsoft: l’intelligenza artificiale generale, ovvero robot capaci di apprendere e ragionare all’umano. Questa evoluzione promette un notevole avanzamento nelle competenze robotiche, tradizionalmente circoscritte a compiti specifici.
Negli ultimi anni, i modelli di previsione a lungo termine hanno guadagnato sempre più attenzione nel campo dell’intelligenza artificiale (AI) e dell’apprendimento automatico (machine learning). Questi modelli sono cruciali per una vasta gamma di applicazioni, dalle previsioni meteorologiche alle analisi economiche, passando per la gestione delle risorse energetiche e la pianificazione urbana. In questo contesto, TiDE (Time-series Dense Encoder) si è distinto come uno dei più promettenti. Sviluppato dal team di Google Research, TiDE rappresenta un passo in avanti significativo nella capacità di fare previsioni affidabili su orizzonti temporali più lunghi rispetto ai modelli tradizionali.
Nell’affascinante panorama dell’intelligenza artificiale, una nuova categoria di modelli sta emergendo come protagonista: i Modelli di Azione Avanzati (LAMs). Questi sistemi AI rappresentano un cambiamento paradigmatico, in grado di superare i limiti del tradizionale processamento del linguaggio e aprire nuovi orizzonti nell’interazione tra il mondo virtuale e quello fisico.
Amazon ha dichiarato martedì che il suo chatbot di intelligenza artificiale generativa, Q, è ora completamente disponibile per gli sviluppatori.
Le azioni sono aumentate dello 0,4% nelle prime negoziazioni.
“Da quando abbiamo annunciato il servizio al re:Invent, siamo rimasti stupiti dagli incrementi di produttività riscontrati da sviluppatori e utenti aziendali”,
“Le prime indicazioni indicano che Amazon Q potrebbe aiutare i dipendenti dei nostri clienti a diventare più produttivi di oltre l’80% nel loro lavoro; e con le nuove funzionalità che prevediamo di introdurre in futuro, riteniamo che questo trend continuerà a crescere.”
Q è ora in grado di scrivere o correggere codice ed è in grado di fornire suggerimenti su più righe per il codice, ha affermato Amazon. L’azienda ha inoltre presentato Amazon Q Apps che consentirà ai dipendenti di creare app personalizzate basate sull’intelligenza artificiale a partire dai dati della propria azienda, utilizzando istruzioni di testo.
Presentato a novembre , Q è alimentato da modelli linguistici di grandi dimensioni e altri modelli di base, disponibili tramite Amazon Bedrock. È in concorrenza con altri strumenti di codifica AI, come GitHub Copilot di Microsoft.
La tecnologia è alimentata da modelli linguistici di grandi dimensioni e da altri modelli di base, disponibili tramite Amazon Bedrock.
Amazon Q fornisce agli agenti risposte e azioni consigliate basate sulle domande dei clienti in tempo reale per un’assistenza clienti più rapida e accurata, ha affermato la società in una nota.
Amazon alla fine addebiterà agli utenti aziendali $ 20 a persona al mese. Una versione con funzionalità per sviluppatori e operatori IT costerà $ 25 a persona al mese.
A scopo di confronto, sia Microsoft che Google addebitano $ 30 a persona al mese rispettivamente per Copilot per Microsoft 365 e Duet AI per Google Workspace.
Amazon Connect Contact Lens aiuta a identificare le parti essenziali delle conversazioni nei call center con riepiloghi generati dall’intelligenza artificiale che rilevano sentiment, tendenze e conformità alle policy.
Amazon Lex in Amazon Connect consente oggi agli amministratori dei contact center di creare nuovi chatbot e sistemi di risposta vocale interattivi utilizzando istruzioni in linguaggio naturale e di migliorare i sistemi esistenti generando risposte alle domande più frequenti.
Amazon Connect Customer Profiles consente agli agenti di fornire un servizio clienti più rapido e personalizzato e crea profili cliente unificati da diverse applicazioni e database Software-as-a-Service.
Amazon sta espandendo le sue capacità di intelligenza artificiale generativa mentre la corsa per sfruttare la tecnologia si infiamma.
Sfruttare i LLM e altri FM è un’impresa difficile che richiede competenze tecniche che scarseggiano e sono molto richieste, ha affermato Amazon.
“L’integrazione di questi modelli in nuove applicazioni di customer experience che funzionano con la suite esistente di strumenti di contact center di un’organizzazione richiede ulteriori competenze specifiche del settore”, ha affermato Amazon. “Amazon Connect elimina le sfide legate alla creazione e all’implementazione di modelli nei contact center consentendo ai leader aziendali non tecnici di creare un contact center cloud con funzionalità di intelligenza artificiale generativa in pochi minuti.”
AWS ha inoltre annunciato nuove funzionalità per rendere più rapido l’accesso e l’analisi dei dati su più origini dati e funzionalità per aumentare la comprensione da parte dei clienti delle proprie catene di fornitura per contribuire a migliorare l’accuratezza e la pianificazione.
Iscriviti alla nostra newsletter settimanale per non perdere le ultime notizie sull’Intelligenza Artificiale.
Open Voice v2 è un modello di sintesi vocale sviluppato da OpenAI, un’azienda di ricerca sull’intelligenza artificiale. Questo modello utilizza l’apprendimento profondo per generare voci sintetiche di alta qualità, simili a quelle umane.
Open Voice v2 è stato addestrato su un vasto dataset di voci umane, il che gli consente di generare voci con diverse tonalità, accenti e lingue.
Il modello è progettato per essere utilizzato in una vasta gamma di applicazioni, tra cui assistenti virtuali, sistemi di navigazione, audiolibri e altro ancora. OpenAI ha rilasciato Open Voice v2 come parte del suo impegno a rendere l’intelligenza artificiale accessibile e vantaggiosa per tutti.
Come spiegato nel articolo e nel sito Web , i vantaggi di OpenVoice sono triplici:
1. Clonazione accurata dei colori dei toni. OpenVoice può clonare accuratamente il colore del tono di riferimento e generare parlato in più lingue e accenti.
2. Controllo flessibile dello stile vocale. OpenVoice consente un controllo granulare sugli stili vocali, come emozione e accento, nonché su altri parametri di stile tra cui ritmo, pause e intonazione.
3. Clonazione vocale multilingue zero-shot. Né la lingua del discorso generato né la lingua del discorso di riferimento devono essere presentate nel set di dati di formazione multilingue per parlanti massivi.
Nell’aprile 2024 e’ stato rilasciato rilasciato OpenVoice V2, che include tutte le funzionalità della V1 e dispone di:
1. Migliore qualità audio. OpenVoice V2 adotta una strategia di formazione diversa che offre una migliore qualità audio.
2. Supporto multilingue nativo. Inglese, spagnolo, francese, cinese, giapponese e coreano sono supportati nativamente in OpenVoice V2.
3. Uso commerciale gratuito. A partire da aprile 2024, sia la V2 che la V1 vengono rilasciate sotto licenza MIT. Gratuito per uso commerciale.
Una piattaforma che utilizza l’intelligenza artificiale per consentire una personalizzazione dell’apprendimento è un sistema di formazione online che adatta il contenuto didattico alle esigenze e alle abilità dell’utente. Questo tipo di piattaforma utilizza algoritmi di apprendimento automatico per analizzare le interazioni dell’utente con il sistema, come le risposte ai quiz, il tempo trascorso su ogni argomento e i progressi complessivi, per creare un percorso di apprendimento personalizzato.
La piattaforma può anche offrire raccomandazioni sui contenuti didattici più adatti all’utente, suggerire esercizi aggiuntivi per rafforzare le aree di debolezza e fornire feedback personalizzati per aiutare l’utente a migliorare le proprie prestazioni. Inoltre, la piattaforma può adattare il livello di difficoltà dei contenuti in base alle competenze dell’utente, fornendo sfide adeguate per mantenere l’interesse e la motivazione.
L’utilizzo dell’intelligenza artificiale nella personalizzazione dell’apprendimento offre numerosi vantaggi, tra cui un’esperienza di apprendimento più coinvolgente e mirata, una maggiore efficacia nell’acquisizione delle competenze e una riduzione del tempo necessario per completare il percorso formativo. Questo approccio è particolarmente utile per gli studenti con esigenze di apprendimento diverse, come coloro che hanno difficoltà di apprendimento o che necessitano di un supporto extra per raggiungere i propri obiettivi formativi.
Un buone esempio e’ TutorAI che, nella schermata iniziale, chiede semplicemente di inserire l’argomento che si vuole imparare ed elabora in pochi secondi un percorso di apprendimento strutturato in una serie di moduli, per ciascuno dei quali lo studente ha la possibilità di richiedere una sintesi dei contenuti, di ottenere esempi, di rispondere a quiz, di fare domande. Nella versione a pagamento è possibile definire il proprio livello di conoscenza iniziale, tracciare le proprie performance e far sì che la piattaforma osservi il modo in cui interagiamo con i contenuti, adattando a mano a mano il percorso al nostro stile di apprendimento.
Altri esempi includono :
Impara il prompt : un corso gratuito e open source sulla comunicazione con l’intelligenza artificiale.
Roadmap : una roadmap che collega molti dei concetti più importanti dell’apprendimento automatico, come apprenderli e quali strumenti utilizzare per eseguirli.
coursera-deep-learning-specialization – Appunti, compiti di programmazione e quiz da tutti i corsi della specializzazione Coursera Deep Learning offerta da deeplearning.ai
tensorflow : tutte le note importanti per imparare Python con tutti gli esempi in Google Colab
Diagramma : nuovi modi magici x progettare prodotti.
PromptBase : un mercato per l’acquisto e la vendita di prompt di qualità per DALL·E, GPT-3, Midjourney, Stable Diffusion.
Questa immagine non esiste : metti alla prova la tua capacità di capire se un’immagine è generata da un essere umano o da un computer.
Sono stato addestrato? – Controlla se la tua immagine è stata utilizzata per addestrare modelli artistici AI popolari.
AI Dungeon : un gioco di storie d’avventura basato su testo che dirigi (e in cui reciti) mentre l’intelligenza artificiale gli dà vita.
Cliccabile : genera annunci in pochi secondi con l’intelligenza artificiale. Annunci belli, coerenti con il marchio e ad alto tasso di conversione per tutti i canali di marketing.
Scale Spellbook : crea, confronta e distribuisci app di modelli linguistici di grandi dimensioni con Scale Spellbook.
Scenario : risorse di gioco generate dall’intelligenza artificiale.
Teleprompter : un’intelligenza artificiale integrata nel dispositivo per le tue riunioni che ti ascolta e fornisce suggerimenti di citazioni carismatiche.
FinChat : utilizzando l’intelligenza artificiale, FinChat genera risposte a domande su aziende pubbliche e investitori.
Petals : piattaforma in stile BitTorrent per l’esecuzione di modelli AI in modo distribuito.
Shotstack Workflows : strumento per flussi di lavoro di automazione senza codice per la creazione di applicazioni multimediali con intelligenza artificiale generativa.
PressPulse AI : ricevi ogni mattina contatti personalizzati con copertura mediatica.
GummySearch : ricerca clienti basata sull’intelligenza artificiale tramite Reddit. Scopri i problemi da risolvere, il sentiment sulle soluzioni attuali e le persone che desiderano acquistare il tuo prodotto.
Taplio : lo strumento LinkedIn tutto in uno, basato sull’intelligenza artificiale.
PromptPal : cerca prompt e bot, quindi usali con la tua IA preferita. Tutto in un unico posto.
FairyTailAI – Generatore di favole della buonanotte personalizzate
Miriade : ridimensiona la creazione di contenuti e ottieni la migliore scrittura da ChatGPT, Copilot e altri IA. Crea e ottimizza istruzioni per qualsiasi tipo di contenuto, dal formato lungo agli annunci e alle e-mail.
GradGPT : strumenti AI per semplificare le domande universitarie. Esamina domande, crea bozze di saggi, trova università, requisiti e altro ancora.
Code to Flow : visualizza, analizza e comprendi il flusso del codice. Trasforma il codice in diagrammi di flusso interattivi con l’intelligenza artificiale. Semplifica istantaneamente la logica complessa.
Il Parlamento europeo ha recentemente ratificato la normativa relativa allo Spazio europeo dei dati sanitari (EHDS), segnando un punto di svolta per la sanità digitale nell’Unione Europea. Questa mossa significativa avrà un impatto considerevole sui diritti degli individui rispetto ai loro dati sanitari elettronici e sulle opportunità di riutilizzo di tali dati.
Dopo mesi di duro lavoro e dedizione, abbiamo un accordo che sosterrà fortemente l’assistenza ai pazienti e la ricerca scientifica nell’UE. Il nuovo regolamento concordato oggi consentirà ai pazienti, ovunque si trovino nell’UE, di accedere ai loro dati sanitari, fornendo nel contempo alla ricerca scientifica realizzata per importanti motivi di interesse pubblico una grande quantità di dati sicuri che gioveranno notevolmente all’elaborazione delle politiche sanitarie.
Frank Vandenbroucke, VP ministro e ministro degli Affari sociali e della sanità pubblica del Belgio
L’EHDS permetterà agli individui di accedere ai loro dati sanitari elettronici tramite portali o applicazioni per pazienti. Questo è in sintonia con gli obiettivi del programma politico del Decennio Digitale 2030: il 100% dei cittadini ha accesso ai propri record sanitari elettronici. Inoltre, la normativa assicurerà che i dati sanitari elettronici seguano i pazienti quando cercano cure presso diversi fornitori di assistenza sanitaria nel loro Stato membro o in tutta l’UE.
Mediante il formato europeo di scambio di record sanitari elettronici, la normativa promuoverà un’ulteriore armonizzazione delle strutture dei dati scambiati dai sistemi di record sanitari elettronici. Oltre ai dati strutturati, il formato dovrebbe supportare anche lo scambio di documenti clinici non strutturati, per garantire l’attuazione dei diritti degli individui. I sistemi di record sanitario elettronico saranno certificati per assicurare la loro conformità ai requisiti di interoperabilità e registrazione.
Per garantire un accesso sicuro ai dati sanitari elettronici per scopi di uso secondario, la normativa stabilirà una rete di enti di accesso ai dati sanitari in ogni Stato membro. Questo accelererà la ricerca e l’innovazione nell’UE, contribuendo allo sviluppo di nuovi trattamenti e soluzioni sanitarie avanzate.
Saranno istituite due infrastrutture chiave, MyHealth@EU e HealthData@EU, per supportare l’attuazione dell’EHDS. Nonostante la creazione di queste infrastrutture rappresenti un compito impegnativo, i progressi sono ben avviati. I componenti principali di MyHealth@EU sono già operativi e sono in corso i progetti pilota di HealthData@EU.
La normativa sullo Spazio europeo dei dati sanitari rappresenta un enorme progresso, consentendo un flusso continuo di dati sanitari a beneficio di tutti noi.
L’intelligenza artificiale generativa (GenAI) è un campo affascinante caratterizzato da una vasta e variegata offerta di soluzioni fornite da una molteplicità di attori. Le imprese che si avventurano nell’implementazione della GenAI devono navigare attraverso un complesso ecosistema di fornitori, che comprende produttori di modelli di base, sviluppatori di piattaforme AI, specialisti nella gestione dei dati, fornitori di strumenti per la personalizzazione dei modelli e molti altri.
Ciò che sorprende è che, nonostante il dominio delle grandi aziende di cloud computing nel panorama IT degli ultimi dieci anni, il loro ruolo centrale nel settore della GenAI non è stato così marcato come inizialmente previsto. Almeno finora. Ma ci sono segnali che la situazione potrebbe cambiare. Google ha recentemente tenuto un impressionante evento Cloud Next in cui l’azienda ha presentato un’ampia gamma di funzionalità basate su GenAI.
Siamo ancora in una fase embrionale per quanto riguarda le implementazioni di GenAI, e molte organizzazioni stanno appena cominciando a delineare la propria strategia e il metodo di attuazione. È diventato evidente, tuttavia, che molte aziende stanno riconoscendo l’importanza di avere software e servizi GenAI integrati con le loro fonti di dati primarie.
Considerando l’abbondanza di dati ospitati nel cloud AWS, molte di queste organizzazioni vedranno con favore le nuove funzionalità migliorate offerte da AWS, poiché possono agevolare la creazione e l’ottimizzazione dei modelli GenAI, specialmente con tecnologie come RAG.
Per le aziende che dipendono pesantemente dai servizi di archiviazione dati di AWS per l’addestramento e l’affinamento dei propri modelli GenAI, l’introduzione di queste nuove funzionalità Bedrock potrebbe essere un incentivo significativo per rilanciare i loro progetti applicativi GenAI.
È probabile che assistiamo anche alla crescita delle implementazioni di piattaforme multi-GenAI. Come le imprese hanno imparato che l’adozione di più fornitori di cloud era vantaggiosa dal punto di vista economico, logistico e tecnico, è possibile che si adotti un approccio analogo per sfruttare le diverse piattaforme GenAI per soddisfare le esigenze di diverse tipologie di applicazioni. Sebbene la competizione sia ancora in corso, è evidente che tutti i principali fornitori di cloud computing stanno cercando di affermarsi come player rilevanti anche in questo settore.
La divisione AWS di Amazon sta svelando una serie di nuove funzionalità e miglioramenti per il suo servizio completamente gestito Bedrock GenAI.
Amazon Bedrock è un servizio completamente gestito che offre una scelta di modelli di fondazione (FM) ad alte prestazioni delle principali aziende di IA, come AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI e Amazon, tramite un’unica API, insieme ad un’ampia gamma di funzionalità necessarie per creare applicazioni di IA generativa, utilizzando l’IA in modo sicuro, riservato e responsabile
Nello specifico, Amazon sta aggiungendo la possibilità di importare modelli di fondazione personalizzati nel servizio e quindi consentire alle aziende di sfruttare le capacità di Bedrock attraverso tali modelli personalizzati.
Le aziende che hanno addestrato un modello open source come Llama o Mistral con i propri dati potenzialmente con lo strumento di sviluppo del modello SageMaker di Amazon possono ora integrare quel modello personalizzato insieme ai modelli standardizzati esistenti all’interno di Bedrock.
Come risultato possono utilizzare un’unica API per creare applicazioni che attingono ai loro modelli personalizzati e alle opzioni dei modelli Bedrock esistenti, tra cui le ultime novità di AI21 Labs, Anthropic, Cohere, Meta e Stability AI, nonché i modelli Titan di Amazon.
Amazon ha anche introdotto la versione 2 del suo modello Titan Text Embeddings, che è stato specificamente ottimizzato per le applicazioni RAG.
Uno degli altri vantaggi dell’importazione di modelli personalizzati in Bedrock è la capacità di sfruttare le funzioni RAG integrate del servizio. Ciò consente alle aziende di sfruttare questa nuova tecnologia sempre più popolare per continuare a perfezionare i propri modelli personalizzati con nuovi dati.
La società ha inoltre annunciato la disponibilità generale del suo modello Titan Image Generator.
Poiché è serverless, Bedrock ha funzionalità integrate per scalare senza problemi le prestazioni dei modelli anche tra le istanze AWS, consentendo alle aziende di gestire più facilmente le proprie richieste in tempo reale in base alla situazione.
Le organizzazioni che desiderano creare agenti basati sull’intelligenza artificiale in grado di eseguire attività in più fasi, Bedrock offre anche strumenti che consentono agli sviluppatori di crearli e alle aziende di attingere ai loro modelli personalizzati mentre lo fanno.
Gli agenti sono attualmente uno degli argomenti di discussione più caldi in GenAI, quindi questo tipo di funzionalità è destinato a interessare quelle organizzazioni che vogliono rimanere all’avanguardia. Oltre a queste funzionalità esistenti per Bedrock, Amazon ne ha annunciate altre due, entrambe estensibili ai modelli Bedrock esistenti e anche ai modelli importati personalizzati.
Il Guardrails per Amazon Bedrock aggiunge un ulteriore set di funzionalità di filtro per impedire la creazione e il rilascio di contenuti inappropriati e dannosi, nonché di informazioni personali e/o sensibili.
Praticamente tutti i modelli incorporano già un certo grado di filtraggio dei contenuti, ma i nuovi Guardrail forniscono un ulteriore livello di prevenzione personalizzabile per aiutare le aziende a proteggersi ulteriormente da questo tipo di problemi e garantire che i contenuti generati siano conformi alle linee guida del cliente.
Inoltre, lo strumento di valutazione dei modelli di Amazon all’interno di Bedrock è ora generalmente disponibile. Questo strumento aiuta le organizzazioni a trovare il miglior modello di base per la particolare attività che stanno cercando di realizzare o per l’applicazione che stanno cercando di scrivere.
Il valutatore confronta caratteristiche standard come l’accuratezza e la robustezza delle risposte di diversi modelli. Consente inoltre la personalizzazione di diversi criteri chiave.
Le aziende possono, ad esempio, caricare i propri dati o una serie di suggerimenti personalizzati sul valutatore e quindi generare un report che confronti il comportamento dei diversi modelli in base alle loro esigenze personalizzate.
Amazon offre anche un meccanismo per consentire agli esseri umani di valutare diversi output del modello per misurazioni soggettive come la voce del marchio, lo stile, ecc. Questa valutazione del modello è una capacità importante perché mentre molte aziende potrebbero inizialmente essere attratte da una piattaforma a modello aperto come Bedrock grazie alla gamma delle diverse scelte che offre, quelle stesse scelte possono rapidamente diventare confuse e travolgenti.
I dati sono ovunque e raccontano una storia su tutti. Ma come ogni bella storia, sono necessarie più prospettive per ottenere il quadro generale.
Poiché la polizia fa sempre più affidamento sull’intelligenza artificiale per prevedere e rispondere ai crimini, è fondamentale che queste previsioni non si basino su dati distorti.
Assicuriamoci che questa potente tecnologia veda chiaramente le nostre comunità e le tratti allo stesso modo.
Questo rapporto esamina l’uso dell’intelligenza artificiale nella polizia predittiva e nel rilevamento del parlato offensivo.
Dimostra come i pregiudizi negli algoritmi appaiono, possono amplificarsi nel tempo e influenzare la vita delle persone, portando potenzialmente alla discriminazione.
Ciò conferma la necessità di valutazioni più complete e approfondite degli algoritmi in termini di bias prima che tali algoritmi vengano utilizzati per processi decisionali che possono avere un impatto sulle persone :
Intelligenza artificiale e pregiudizi: qual è il problema?
Circuiti di feedback: come gli algoritmi possono influenzare gli algoritmi
Pregiudizi etnici e di genere nel rilevamento del linguaggio offensivo
Guardando al futuro: focalizzare l’attenzione sui diritti fondamentali sull’intelligenza artificiale per mitigare pregiudizi e discriminazioni
Questo è forse uno dei grafici più importanti sull’Intelligenza Artificiale per il 2024. È stato costruito dallo straordinario team di ricercatori di CathieDWood‘S @ARKInvest. Possiamo vedere che l’ascesa dei modelli locali open source è sulla buona strada per superare i massicci (e costosi) modelli chiusi basati sul cloud.
L’ascesa dei modelli locali open source che superano i massicci e costosi modelli chiusi basati sul cloud è affascinante. Questo cambiamento potrebbe democratizzare l’Intelligenza Artificiale e consentire un’innovazione più diffusa, poiché gli attori più piccoli ottengono l’accesso a strumenti potenti senza la necessità di ingenti investimenti
Meta ha compiuto un passo significativo nel mondo dell”i’Intelligenza Artificiale open source con progetti come Llama 3, dimostrando un impegno verso l’innovazione e affrontando le sfide associate a tali iniziative all’avanguardia e su larga scala.
Tuttavia, ci sono notevoli costi legati allo sviluppo di queste tecnologie, specialmente per addestrare modelli linguistici complessi come Llama 3, che richiedono risorse computazionali ed energetiche considerevoli.
Perché Meta si sta avventurando nell’Intelligenza Artificiale open source?
Una ragione chiave potrebbe essere la strategia di “mercificare il proprio complemento”.
Questo concetto, identificato da Joel Spolsky, implica rendere i prodotti e i servizi complementari al proprio core business economici e ampiamente disponibili, al fine di aumentare la domanda per il prodotto principale e catturarne il valore. Storicamente, questa strategia ha funzionato bene nel settore tecnologico, come dimostrato da casi come IBM con il PC originale e Microsoft con MS-DOS.
Meta si è impegnata in questa strategia anche attraverso l’Intelligenza Artificiale generativa, che consente agli utenti di creare rapidamente nuovi contenuti, dall’immagine al testo ai video.
Facendo sì che la creazione di contenuti sia economica e diffusa, Meta può aumentare l’coinvolgimento degli utenti sulle proprie piattaforme, generando così maggiori entrate pubblicitarie.
Il rilascio di tecnologie AI come open source attira i migliori talenti nel campo, promuove l’innovazione e migliora i prodotti di Meta.
Questa strategia è sostenuta dall’idea che l’accesso alla tecnologia AI di base non comprometta il core business di Meta nel social networking e nella pubblicità digitale.
I modelli di Intelligenza Artificiale aperti ampliano l’universo dei contenuti disponibili senza minacciare direttamente le piattaforme di Meta per gli inserzionisti o gli utenti.
Meta mira a sfruttare l’Intelligenza Artificiale open source per aumentare l’coinvolgimento degli utenti, migliorare i suoi prodotti (fine Tuning) e servizi e aumentare i profitti, senza compromettere il suo core business.
Yann LeCun :
Meta sta implementando una strategia innovativa che va oltre i tradizionali modelli di business basati sulla pubblicità (ADV) e sui pagamenti per servizi. Questa strategia prevede la distribuzione gratuita di un modello a milioni di persone e sviluppatori. L’obiettivo è stimolare la creazione di soluzioni che possano essere utili per i clienti di Meta.
Gli sviluppatori, avendo accesso al modello, possono creare e personalizzare le loro soluzioni, che possono variare da applicazioni a servizi. Queste soluzioni, una volta create, possono essere acquisite da Meta, creando così un ciclo di innovazione e crescita.
In sostanza, Meta sta cercando di costruire rapidamente una comunità di produttori che creano modelli specifici con l’intenzione di acquisirli successivamente. Questo processo include la verifica della piattaforma alla fonte, il controllo di ciò che viene creato e la selezione di ciò che può essere integrato nella sua piattaforma. Questa strategia consente a Meta di rimanere all’avanguardia nell’innovazione, garantendo al contempo che le soluzioni più utili e pertinenti siano rese disponibili ai suoi clienti.
“La scommessa è che Meta ha già una base utenti e customer base. Quello che offriamo sarà utile a loro e c’è un modo per ricavare revenue da questi servizi. Per noi non ha un impatto se forniamo il modello base in open source per consentire ad altri di costruire applicazioni. Se queste applicazioni sono utili ai nostri clienti e noi possiamo comprarle da loro, può essere che migliorino la piattaforma“, il pensiero dell’azienda.
I motori di ricerca basati sull’intelligenza artificiale (AI) sono sistemi che utilizzano l’AI per migliorare la ricerca e la presentazione delle informazioni su Internet. Questi motori di ricerca utilizzano tecniche avanzate come l’apprendimento automatico, l’elaborazione del linguaggio naturale e la visione computerizzata per comprendere le ricerche degli utenti, valutare le informazioni e fornire risultati completi, accurati e pertinenti.
Ecco alcuni punti chiave sui motori di ricerca AI:
Ricerca più accurata e personalizzata: I motori di ricerca AI apprendono dalle interazioni degli utenti per comprendere meglio quali risultati sono più rilevanti per un particolare tipo di query. Questo processo di apprendimento continuo migliora gli algoritmi di ricerca nel tempo, fornendo risultati sempre migliori.
Risultati più pertinenti: A differenza dei motori di ricerca tradizionali che si affidano spesso a parole chiave e collegamenti, i motori di ricerca AI possono fornire risultati più pertinenti alla nostra query di ricerca o al contesto.
Servizi più interattivi e personalizzati: I motori di ricerca AI possono fornire servizi come la ricerca vocale o di immagini, riepiloghi, consigli e visualizzazioni.
Miglioramento continuo: I motori di ricerca AI non smettono mai di raccogliere nuove informazioni dalle interazioni umane, migliorando così nel tempo.
Alcuni esempi di motori di ricerca basati sull’AI :
Motori di ricerca
Kazimir.ai – Un motore di ricerca progettato per cercare immagini generate dall’intelligenza artificiale.
Perplexity AI : strumenti di ricerca basati sull’intelligenza artificiale.
Metafora : ricerca basata sul modello linguistico.
Phind : motore di ricerca basato sull’intelligenza artificiale.
You.com : un motore di ricerca basato sull’intelligenza artificiale che offre agli utenti un’esperienza di ricerca personalizzata mantenendo i loro dati privati al 100%.
Komo AI : un motore di ricerca basato sull’intelligenza artificiale che fornisce risposte rapide e brevi.
Telborg – AI for Climate Research, con dati esclusivamente provenienti da governi, istituzioni internazionali e aziende.
Motori di ricerca locali
privateGPT : poni domande ai tuoi documenti senza una connessione Internet, sfruttando la potenza dei LLM.
quivr : scarica tutti i tuoi file e chatta con essi utilizzando il tuo secondo cervello AI generativo utilizzando LLM e incorporamenti.
I motori di ricerca AI e i chatbot sono entrambi alimentati dall’intelligenza artificiale, ma sono utilizzati in modi diversi e hanno funzioni diverse.
Un motore di ricerca AI è progettato per cercare informazioni nel web e fornire risultati pertinenti in base alla query di un utente. Utilizza tecniche come l’apprendimento automatico e l’elaborazione del linguaggio naturale per comprendere le ricerche degli utenti e fornire risultati accurati e pertinenti.
D’altra parte, un chatbot è un software progettato per simulare conversazioni umane. Può rispondere alle domande degli utenti, fornire assistenza o eseguire determinate azioni, come prenotare un appuntamento o effettuare un ordine. Molti chatbot utilizzano l’intelligenza artificiale per comprendere meglio le domande degli utenti e fornire risposte più accurate.
Differenze chiave tra i motori di ricerca AI e i chatbot:
Interazione: I chatbot interagiscono con gli utenti attraverso una conversazione, mentre i motori di ricerca AI rispondono alle query di ricerca degli utenti.
Funzione: I chatbot sono generalmente utilizzati per automatizzare determinate attività e fornire assistenza ai clienti, mentre i motori di ricerca AI sono utilizzati per trovare e fornire informazioni pertinenti da Internet.
Apprendimento: Mentre entrambi utilizzano l’intelligenza artificiale, i motori di ricerca AI tendono a utilizzare l’apprendimento automatico per migliorare i risultati di ricerca nel tempo. D’altra parte, molti chatbot utilizzano modelli di linguaggio pre-addestrati e non apprendono dalle interazioni con gli utenti.
L’intelligenza artificiale sta scuotendo Internet con le sue straordinarie capacità creative, evidenziate dalle immagini generate da piattaforme come Midjourney, Dall-E e Stable Diffusion. Queste rappresentazioni suscitano riflessioni sull’approccio “vedere per credere” per comprendere il potere dell’IA. E una volta accettata questa potenza visiva, non sorprende che l’IA sia altrettanto efficace nel dominio audio.
La musica, fondamentale per l’esperienza cinematografica, può essere generata e completata dall’IA. Registi come Gareth Edwards hanno sperimentato l’IA per comporre colonne sonore, ottenendo risultati sorprendentemente buoni. Sebbene possa non raggiungere l’eccellenza di artisti consolidati come Hans Zimmer, per i creatori emergenti un’IA che produce una colonna sonora decente può fare la differenza tra avere una colonna sonora e non averne affatto.
Come Photoshop ha rivoluzionato la grafica, l’IA offre nuove opportunità anche nella composizione musicale. Tutorial online permettono a chiunque, anche senza esperienza musicale, di creare la propria musica.
L’intelligenza artificiale non è limitata al visivo e all’audio, ma può anche abbattere le barriere linguistiche. Offrendo traduzioni in tempo reale, rende possibile la comprensione reciproca tra persone che parlano lingue diverse, aumentando la connessione umana anche attraverso video, testi e situazioni reali.
Vediamo alcuni esempi di come l’AI viene utilizzata nell’ambito audio:
Riconoscimento automatico del parlato (ASR): Gli algoritmi di ASR utilizzano l’intelligenza artificiale per convertire il parlato umano in testo scritto. Questa tecnologia è utilizzata in assistenti vocali come Siri, Alexa e Google Assistant, nonché in applicazioni di trascrizione automatica per riunioni, interviste e altro ancora.
Sintesi vocale: L’AI può essere utilizzata per generare voci sintetiche realistiche che possono leggere testo scritto ad alta voce. Questa tecnologia è utile per la creazione di audiolibri, assistenti vocali e applicazioni di accessibilità per persone non vedenti o ipovedenti.
Riconoscimento musicale: Alcune applicazioni utilizzano l’AI per riconoscere canzoni in base al suono, consentendo agli utenti di identificare brani musicali in corso di riproduzione.
Trascrizione automatica di brani musicali: Gli algoritmi di trascrizione musicale utilizzano l’AI per convertire brani musicali registrati in partiture musicali o spartiti.
Editing e mastering audio: Alcuni software di editing audio utilizzano l’AI per migliorare la qualità del suono, rimuovere il rumore di fondo, normalizzare il volume e applicare altri effetti audio.
Riconoscimento dell’umore e delle emozioni: L’AI può essere utilizzata per analizzare l’audio e identificare l’umore o le emozioni associate al parlato o alla musica. Questa tecnologia può essere utilizzata per scopi di analisi del feedback dei clienti, di valutazione dell’esperienza dell’utente e di analisi dei sentimenti sui social media.
Generazione di musica e suoni: Alcuni algoritmi di intelligenza artificiale sono in grado di generare musica e suoni originali in base a modelli e stili esistenti. Questa tecnologia è utilizzata in composizione musicale assistita dall’AI e nella produzione di effetti sonori per film, giochi e altri media.
Chiamate telefoniche
AICaller.io – AICaller è una soluzione per chiamate collettive automatizzate e semplice da usare che utilizza la più recente tecnologia di intelligenza artificiale generativa per attivare chiamate telefoniche per te e portare a termine le tue attività. Può eseguire operazioni come la qualificazione dei lead, la raccolta di dati tramite telefonate e molto altro. Viene fornito con una potente API, prezzi bassi e prova gratuita.
Cald.ai – Agenti di chiamata basati sull’intelligenza artificiale per chiamate telefoniche in uscita e in entrata.
podcast.ai – Un podcast interamente generato dall’intelligenza artificiale, basato sull’intelligenza artificiale testo-voce di Play.ht.
VALL-E X – Un modello linguistico codec neurale multilingue per la sintesi vocale multilingue.
TorToiSe – Un sistema di sintesi vocale multi-voce addestrato con un’enfasi sulla qualità. #opensource
Bark : un modello da testo ad audio basato su trasformatore. #opensource
Musica
Loudly: Loudly è un’applicazione mobile che offre un servizio di riconoscimento musicale simile a Shazam. Gli utenti possono utilizzare l’app per identificare canzoni in corso di riproduzione semplicemente avvicinando il loro dispositivo mobile alla fonte del suono. Una volta identificata la canzone, Loudly fornisce informazioni dettagliate sul brano, come il titolo, l’artista, l’album e la possibilità di ascoltarlo direttamente dall’app o di acquistarlo.
Suno: Suno è un’altra applicazione mobile che offre funzionalità simili a Loudly e Shazam. Gli utenti possono utilizzare Suno per identificare canzoni ascoltate in tempo reale o registrate in precedenza. Inoltre, Suno offre anche funzionalità sociali che consentono agli utenti di condividere le loro scoperte musicali con amici e seguaci attraverso la piattaforma.
Harmonai : siamo un’organizzazione guidata dalla comunità che rilascia strumenti audio generativi open source per rendere la produzione musicale più accessibile e divertente per tutti.
Mubert : un ecosistema musicale esente da royalty per creatori di contenuti, marchi e sviluppatori.
MusicLM – Un modello di Google Research per generare musica ad alta fedeltà da descrizioni di testo.
Questo sono solo alcuni esempi, ormai nel mondo si contano piu’ di 2100 applicazioni AI con un tasso di crescita del 30% anno… il famoso Hype.
Era il 1968 quando Stanley Kubrick con il suo capolavoro “2001: Odissea nello spazio” porta nelle sale cinematografiche HAL 9000: l’intelligenza artificiale estremamente evoluta che guida l’astronave Discovery 1 attraverso lo spazio. E’ in grado di riprodurre tutte le attività della mente umana in modo molto più veloce e sicuro, parla, sente e prova emozioni.
Hal (Heuristic ALgorithmic) non impazzisce. Hal è un computer e come tale non può mentire. Ha ricevuto istruzioni prima della partenza di non rivelare all’equipaggio (tranne i 4 componenti in stato di ibernazione che ne erano al corrente) lo scopo del viaggio.
Questo gli provoca un conflitto che lo porta a commettere errori, lui che si ritiene infallibile. Quando legge il labiale dei due astronauti che vogliono disattivare le sue funzioni principali, cioè spegnerlo, per lui che è sempre stato attivo questo significa morire.
Di conseguenza scatta l’istinto di sopravvivenza e decide di eliminare chi per lui rappresenta una minaccia mortale.
56 anni dopo, il 3 novembre 2022 l’organizzazione senza scopo di lucro OpenAI ha rilasciato la versione più aggiornata del suo chatBOT: ChatGPT.
I chatbot AI (Artificial Intelligence) sono programmi che utilizzano l’intelligenza artificiale e il Natural Language Processing (NLP) per comprendere le domande degli utenti e automatizzare le risposte, simulando la conversazione umana. Questi chatbot (rule based) possono rispondere alle domande e alle richieste degli utenti attraverso input di testo, input audio o entrambi, senza la necessità di un intervento umano.
I chatbot AI più recenti sono spesso indicati come “assistenti virtuali” o “agenti virtuali”. Possono utilizzare l’input audio, come Siri di Apple, Google Assistant e Amazon Alexa, o interagire con gli utenti tramite messaggi SMS (IA debole).
In passato, i chatbot erano basati sul testo e programmati per rispondere ad una serie limitata di semplici domande con risposte che erano state precompilate dagli sviluppatori del chatbot. Nel tempo, i chatbot hanno integrato più regole ed NLP, consentendo così agli utenti finali di fruirne in modo conversazionale.
I chatbot AI di oggi usano NLU (Natural Language Understanding) per discernere i bisogni dell’utente. Utilizzano quindi strumenti di AI avanzati per determinare cosa sta provando a fare l’utente. Queste tecnologie si basano su machine learning e deep learning – elementi di AI, con alcune leggere differenze – per sviluppare una base di conoscenza sempre più granulare di domande e risposte basate sulle interazioni dell’utente.
Un esempio di chatbot AI è ChatGPT – recensoni – ChatGPT di OpenAI è un modello linguistico di grandi dimensioni che interagisce in modo conversazionale. Altri esempi :
Bing Chat – recensioni – Un modello linguistico di intelligenza artificiale conversazionale basato su Microsoft Bing.
Gemini – recensioni – Un chatbot AI sperimentale di Google, basato sul modello LaMDA.
Character.AI – recensioni – Character.AI ti consente di creare personaggi e chattare con loro.
ChatSonic – recensioni – Un assistente basato sull’intelligenza artificiale che consente la creazione di testo e immagini.
Phind – recensioni – Phind è un motore di ricerca intelligente e un assistente per programmatori. Phind è abbastanza intelligente da farti domande in modo proattivo per chiarire i suoi presupposti e navigare sul Web (o sulla tua base di codice) quando ha bisogno di contesto aggiuntivo. Con la nostra nuova estensione VS Code.
Tiledesk – recensioni – Framework di sviluppo chatbot senza codice open source abilitato per LLM. Progetta, testa e lancia i tuoi flussi su tutti i tuoi canali in pochi minuti.
Le estensioni ChatGPT sono strumenti progettati specificamente per i modelli linguistici come ChatGPT. Queste estensioni migliorano le capacità del chatbot e gli consentono di eseguire attività precedentemente impossibili.
Le estensioni ChatGPT includono anche l’integrazione con vari servizi di terze parti. Alcuni esempi di queste integrazioni includono:
Gist AI : riepilogo gratuito basato su ChatGPT per siti Web, YouTube e PDF.
WebChatGPT : aumenta i tuoi prompt ChatGPT con risultati pertinenti dal Web.
Gli strumenti di sviluppo e codice basati sull’intelligenza artificiale (AI) stanno diventando sempre più diffusi e utilizzati dagli sviluppatori per migliorare l’efficienza e la qualità del processo di sviluppo del software.
Ecco alcuni esempi di come l’AI viene integrata negli strumenti di sviluppo e codice:
Assistenza alla scrittura di codice: Gli editor di codice come Visual Studio Code, PyCharm e altri integrano funzionalità AI che offrono suggerimenti intelligenti durante la scrittura del codice. Questi suggerimenti possono includere completamento automatico del codice, correzione automatica degli errori di sintassi, suggerimenti per ottimizzare il codice e molto altro ancora.
Generazione automatica di codice: Alcuni strumenti AI possono generare codice automaticamente in base ai requisiti specificati o agli esempi forniti dall’utente. Questo può aiutare a velocizzare lo sviluppo di determinate parti del software e ridurre il rischio di errori umani.
Debugging automatico: Alcuni strumenti AI sono in grado di individuare e correggere automaticamente gli errori di codice, o addirittura prevedere potenziali bug prima che si verifichino. Questo può aiutare gli sviluppatori a risolvere i problemi più rapidamente e a mantenere un codice più pulito e affidabile.
Ottimizzazione delle prestazioni: Gli strumenti AI possono analizzare il codice sorgente e identificare aree che possono essere ottimizzate per migliorare le prestazioni del software. Questo può includere suggerimenti per ottimizzare algoritmi, ridurre la complessità computazionale e altro ancora.
Automatizzazione dei test: Gli strumenti AI possono automatizzare la creazione e l’esecuzione di test software, identificare automaticamente i casi di test più rilevanti e generare dati di test realistici. Questo può aiutare a ridurre i tempi di sviluppo e migliorare la qualità del software.
Analisi del codice: Gli strumenti AI possono analizzare il codice sorgente per identificare dipendenze, vulnerabilità di sicurezza, pratiche di codice non ottimali e altro ancora. Queste analisi possono aiutare gli sviluppatori a migliorare la manutenibilità, la sicurezza e la stabilità del software.
Strumenti di sviluppo
co:here – Cohere fornisce l’accesso a modelli linguistici di grandi dimensioni avanzati e strumenti di PNL.
Haystack – Un framework per la creazione di applicazioni NLP (ad esempio agenti, ricerca semantica, risposta a domande) con modelli linguistici.
Keploy – Strumento open source per convertire il traffico degli utenti in casi di test e stub di dati.
LangChain – Un framework per lo sviluppo di applicazioni basate su modelli linguistici.
gpt4all : un chatbot addestrato su un’enorme raccolta di dati puliti dell’assistente tra cui codice, storie e dialoghi.
LMQL – LMQL è un linguaggio di query per modelli linguistici di grandi dimensioni.
LlamaIndex : un framework di dati per la creazione di applicazioni LLM su dati esterni.
Phoenix : strumento open source per l’osservabilità ML eseguito nell’ambiente notebook, di Arize. Monitorare e ottimizzare modelli LLM, CV e tabulari.
Prediction Guard : integra perfettamente funzionalità LLM (Large Language Models) private, controllate e conformi.
Portkey : piattaforma LLMOps full-stack per monitorare, gestire e migliorare le app basate su LLM.
OpenAI Downtime Monitor : strumento gratuito che tiene traccia dei tempi di attività e delle latenze dell’API per vari modelli OpenAI e altri provider LLM.
ChatWithCloud : CLI che ti consente di interagire con AWS Cloud utilizzando il linguaggio umano all’interno del tuo terminale.
Codice
GitHub Copilot : GitHub Copilot utilizza OpenAI Codex per suggerire codice e intere funzioni in tempo reale, direttamente dal tuo editor.
OpenAI Codex – Un sistema di intelligenza artificiale di OpenAI che traduce il linguaggio naturale in codice.
Ghostwriter – Un programmatore di coppia basato sull’intelligenza artificiale di Replit.
Amazon CodeWhisperer : crea applicazioni più velocemente con il compagno di codifica basato sul ML.
tabnine : codifica più velocemente con completamenti di codice a riga intera e con funzioni complete.
Stenografia – Documentazione automatica del codice.
Mintlify : scrittore di documentazione basato sull’intelligenza artificiale.
Debuild : strumento low-code basato sull’intelligenza artificiale per app Web.
AI2sql : con AI2sql, ingegneri e non ingegneri possono scrivere facilmente query SQL efficienti e prive di errori senza conoscere SQL.
CodiumAI : con CodiumAI, ti vengono suggeriti test non banali direttamente nel tuo IDE, così rimani sicuro quando spingi.
PR-Agent : strumento basato sull’intelligenza artificiale per analisi PR automatizzate, feedback, suggerimenti e altro ancora.
MutableAI – Sviluppo software accelerato dall’intelligenza artificiale.
TurboPilot : un clone copilota self-hosted che utilizza la libreria dietro llama.cpp per eseguire il modello Salesforce Codegen da 6 miliardi di parametri in 4 GB di RAM.
MetaGPT – Il framework multi-agente: dato un requisito di una riga, restituisci PRD, progettazione, attività, repository
Marblism : genera un boilerplate SaaS da un prompt.
In sintesi, gli strumenti di sviluppo e codice basati sull’AI offrono una serie di funzionalità avanzate che possono migliorare l’efficienza, la qualità e la sicurezza del processo di sviluppo del software. Questi strumenti stanno diventando sempre più importanti nella pratica degli sviluppatori e sono destinati a svolgere un ruolo sempre più significativo nel futuro dello sviluppo software.
Microsoft ha recentemente introdotto VASA-1, un modello di intelligenza artificiale che produce video realistici di volti parlanti da una singola immagine statica e una clip audio.
Il modello è in grado di produrre video con una risoluzione di 512×512 pixel e una frequenza di 40 fotogrammi al secondo (FPS), con una latenza di soli 170 millisecondi sui sistemi GPU NVIDIA RTX 4090.
L’architettura del modello si basa su un approccio di diffusione.
A differenza dei metodi tradizionali che trattano le caratteristiche facciali separatamente, VASA-1 utilizza un modello basato sulla diffusione per generare dinamiche facciali e movimenti della testa in modo olistico. Questo metodo considera tutte le dinamiche facciali, come il movimento delle labbra, l’espressione e i movimenti degli occhi, come parti di un unico modello completo.
VASA-1 opera all’interno di uno spazio latente del viso districato ed espressivo, che gli permette di controllare e modificare le dinamiche facciali e i movimenti della testa indipendentemente da altri attributi facciali come l’identità o l’aspetto statico.
Il modello è stato addestrato su un set di dati ampio e diversificato, che gli consente di gestire un’ampia gamma di identità facciali, espressioni e modelli di movimento. Questo approccio di addestramento aiuta il modello a funzionare bene anche con dati di input che si discostano da ciò su cui è stato addestrato, come input audio non standard o immagini artistiche.
L’addestramento del modello prevede tecniche avanzate di districamento, che consentono la manipolazione separata delle caratteristiche facciali dinamiche e statiche. Ciò si ottiene attraverso l’uso di codificatori distinti per diversi attributi e una serie di funzioni di perdita attentamente progettate per garantire un’efficace separazione di queste caratteristiche.
VASA-1 è stato rigorosamente testato rispetto a vari benchmark e ha dimostrato di superare significativamente i metodi esistenti in termini di realismo, sincronizzazione degli elementi audiovisivi ed espressività delle animazioni generate.
Nonostante i risultati promettenti, la ricerca riconosce alcuni limiti del modello, come l’incapacità di elaborare le dinamiche di tutto il corpo o di catturare completamente elementi non rigidi come i capelli. Tuttavia, sono previsti lavori futuri per espandere le capacità del modello e affrontare queste aree.
L’Intelligenza Artificiale (AI) per immagini e video ha rivoluzionato molti settori, tra cui il riconoscimento di oggetti, l’analisi delle immagini mediche, la sorveglianza di sicurezza, la creazione di contenuti multimediali e molto altro. Ecco alcuni esempi di come l’AI viene utilizzata per immagini e video:
Newsletter AI – non perderti le ultime novità sul mondo dell’Intelligenza Artificiale, i consigli sui tool da provare, i prompt e i corsi di formazione. Iscriviti alla newsletter settimanale e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!
Ti sei mai chiesto cosa rende unici i ricercatori in istituzioni come Google Brain, Stanford University o Goldman Sachs rispetto alla media? Anche noi ci siamo posti la stessa domanda.
Loro, come noi in redazione, siamo sommersi da articoli, documenti e post sui social media che dobbiamo leggere e proviamo a usare dei Tools come ChatGPT che ci aiutano. Poi l’ Exec Director di Rivista.AI mi ha menzionato Otio una specie di bibliotecario digitale dell’IA; con un clic, riassume e organizza qualsiasi tipo di informazione online che gli fornisci.
Otio aiuta a creare un abbozzo o addirittura una prima bozza, basata sui contenuti che ha raccolto. Non si tratta solo di risparmiare tempo; si tratta di migliorare la qualità del suo lavoro.
Aggiungendo alcune informazioni, Otio.ai è uno strumento che utilizza l’intelligenza artificiale per aiutare i ricercatori a gestire e organizzare le informazioni.
Questo strumento può essere particolarmente utile per coloro che lavorano in campi in cui è necessario rimanere aggiornati su una vasta gamma di argomenti e tendenze.
Con la sua capacità di riassumere e organizzare le informazioni, Otio.ai può aiutare a semplificare il processo di ricerca e a migliorare la produttività.
Inoltre, la funzionalità di scrittura assistita di Otio.ai può essere un grande vantaggio per coloro che devono scrivere rapporti o email basati su una grande quantità di informazioni raccolte.
Onestamente, sono le piccole cose che rendono la vita più semplice, e questa è una cosa che ho usato e pagato personalmente da quando l’ho provata. Puoi provarlo gratuitamente qui: Otio.ai.
La società deve affrontare la questione cruciale della fiducia in sistemi che dimostrano una capacità di auto-evoluzione, e questo è un tema che Isaac Asimov ha affrontato nelle sue opere di fantascienza.
Asimov è noto per la creazione delle “Tre leggi della robotica”, che sono state progettate per garantire che i robot non danneggino gli esseri umani o permettano che gli esseri umani vengano danneggiati attraverso l’inazione.
Tuttavia, come la società si avvicina allo sviluppo di sistemi di intelligenza artificiale sempre più sofisticati e autonomi, la questione della fiducia e del controllo diventa ancora più complessa.
La capacità di auto-evolversi di un sistema di intelligenza artificiale significa che può imparare e adattarsi senza l’intervento umano, il che può portare a risultati imprevisti o indesiderati.
Questo solleva domande su come possiamo garantire che tali sistemi operino in modo sicuro ed etico, e su come possiamo garantire che siano conformi alle leggi e alle normative umane.
A questa necessita’ viene icontro il Curiosity-Driven Red-Teaming (CRT) è un metodo innovativo per migliorare la sicurezza dei Large Language Models (LLMs), come i chatbot AI.
I ricercatori dell’Improbable AI Lab del MIT e del MIT-IBM Watson AI Lab hanno utilizzato l’apprendimento automatico per migliorare il red-teaming. Hanno sviluppato una tecnica per addestrare un modello linguistico di grandi dimensioni del team rosso a generare automaticamente diversi suggerimenti che attivano una gamma più ampia di risposte indesiderate dal chatbot in fase di test.
Lo fanno insegnando al modello della squadra rossa a essere curioso quando scrive i suggerimenti e a concentrarsi su nuovi suggerimenti che evocano risposte tossiche dal modello target.
Questo approccio utilizza l’esplorazione guidata dalla curiosità per ottimizzare la novità, formando modelli di red team per generare un insieme di casi di test diversi ed efficaci.
Tradizionalmente, il processo di verifica e test delle risposte di un LLM coinvolgeva un “red team” umano che creava prompt di input specifici per cercare di provocare risposte indesiderate dall’LLM.
Questo processo può essere sia costoso che lento. Di recente, sono stati sviluppati metodi automatici che addestrano un LLM separato, con l’apprendimento per rinforzo, per generare test che massimizzino la probabilità di suscitare risposte indesiderate dal LLM target.
Tuttavia, questi metodi tendono a produrre un numero limitato di casi di test efficaci, offrendo quindi una copertura limitata delle potenziali risposte indesiderate.
CRT supera questa limitazione collegando il problema della generazione di test alla strategia di esplorazione guidata dalla curiosità.
Questo approccio non solo aumenta la copertura dei casi di test, ma mantiene o aumenta anche la loro efficacia, migliorando significativamente la valutazione complessiva della sicurezza dei LLM.
La metodologia CRT si è rivelata molto utile nel generare output tossici da modelli LLM che erano stati addestrati con cura per prevenire tali output.
Questo studio evidenzia l’importanza di esplorare nuovi metodi per aumentare l’efficacia e la copertura dei test di sicurezza per i LLM, specialmente alla luce della loro crescente capacità e diffusione in applicazioni pratiche.
Per ulteriori dettagli, puoi consultare il documento originale “Curiosity-driven Red-teaming for Large Language Models” pubblicato su OpenReview o il codice sorgente disponibile su GitHub.
I coautori di Hong includono gli studenti laureati EECS Idan Shenfield, Tsun-Hsuan Wang e Yung-Sung Chuang; Aldo Pareja e Akash Srivastava, ricercatori del MIT-IBM Watson AI Lab; James Glass, ricercatore senior e capo dello Spoken Language Systems Group presso il Laboratorio di informatica e intelligenza artificiale (CSAIL); e l’autore senior Pulkit Agrawal, direttore di Improbable AI Lab e assistente professore al CSAIL. La ricerca sarà presentata alla Conferenza Internazionale sulle Rappresentazioni dell’Apprendimento.
L’integrazione del Curiosity-Driven Red Teaming (CRT) nella sicurezza dei chatbot e dei Large Language Models (LLMs) rappresenta un significativo progresso, evidenziando una trasformazione fondamentale nella gestione e mitigazione delle risposte indesiderate generate dall’intelligenza artificiale.
Questo metodo, attraverso l’automazione e l’efficienza incrementata, non solo supera i limiti tradizionali di costi, tempo e varietà nei test, ma pone anche questioni etiche sul ruolo umano in questo processo evolutivo.
L’aumento dell’autonomia dell’IA, che sta progredendo nella generazione autonoma del proprio codice software e nel monitoraggio delle proprie prestazioni, indica una trasformazione nel settore industriale orientata all’efficienza temporale e alla riduzione dei costi associati allo sviluppo.
Tuttavia, questa evoluzione solleva interrogativi significativi sull’autoreferenzialità dell’IA e sulla potenziale assenza di supervisione umana, portando a riflessioni sulla regolamentazione e sul controllo etico dell’evoluzione dell’IA.
La società deve affrontare la questione cruciale della fiducia in sistemi che dimostrano una capacità di auto-evoluzione, un circolo che, seppur virtuoso in termini di innovazione tecnologica, presenta dilemmi etici profondi.
In questo scenario, l’elaborazione di norme assume una rilevanza fondamentale, con alcune regioni che prendono la guida nella stesura di regolamenti destinati a orientare l’evoluzione dell’IA.
Persiste ancora ambiguità riguardo all’interpretazione e all’applicazione di tali direttive da parte dell’IA, che sta diventando sempre più indipendente e potrebbe non aderire ai dettami umani.
Questa prospettiva solleva interrogativi sulla reale attuazione di certe norme, che pongono al centro la sicurezza umana e la sottomissione dei sistemi robotici alla volontà umana, evidenziando le sfide nell’implementarle in contesti di AI avanzata e sempre più autonoma.
L’evoluzione dell’IA è un tema complesso e articolato che richiede una riflessione attenta sui potenziali benefici e rischi associati al suo sviluppo. Se da un lato l’aumento dell’autonomia dell’IA ha il potenziale per rivoluzionare i settori e migliorare l’efficienza, dall’altro solleva questioni etiche sul ruolo umano nello sviluppo e nella regolamentazione dell’IA.
Come società, dobbiamo lavorare insieme per garantire che l’evoluzione dell’IA sia guidata da principi di sicurezza, etica e trasparenza, e che i suoi benefici siano accessibili a tutti.
Mentre la rivoluzione dell’IA avanza, è vitale rivalutare continuamente come questa tecnologia sta plasmando il nostro mondo. A tale scopo, i ricercatori dell’Istituto per l’IA centrata sull’Uomo (HAI) di Stanford pubblicano annualmente un rapporto per tracciare, sintetizzare e visualizzare dati specifici del mondo dell’IA.
Con il rilascio odierno del settimo rapporto annuale sull’Indice dell’IA dell’HAI, i ricercatori di Stanford sperano di fornire ai decisori le conoscenze necessarie per integrare questa tecnologia in modo responsabile ed etico nelle loro attività quotidiane. Il rapporto completo, che si estende per quasi 400 pagine, è ricco di informazioni sullo stato dell’IA.
Di seguito sono riportati alcuni dei punti più importanti emersi dal rapporto completo:
L’Industria Sta Guidando lo Sviluppo dell’IA Mentre il rapporto menziona che fino al 2014 l’accademia dominava il mondo dei modelli di apprendimento automatico, questo non è più il caso. Nel 2023, il rapporto ha individuato 51 modelli di apprendimento automatico significativi prodotti dall’industria privata.
Questo confronto avviene con soli 15 modelli originari dell’accademia e 21 modelli in collaborazioni accademico-industriali. I modelli di proprietà governativa chiudevano il fondo della lista con 2 modelli.
Questo cambiamento sembra essere legato alle risorse necessarie per eseguire questi modelli di apprendimento automatico. Le enormi quantità di dati, potenza di calcolo e denaro necessarie sono semplicemente al di fuori della portata delle istituzioni accademiche. Questo spostamento è stato notato per la prima volta nel rapporto dell’Indice dell’IA dell’anno scorso, anche se il divario tra industria e accademia sembra essersi leggermente ridotto.
Impatti Economici Trasformativi dell’IA Il rapporto ha individuato un trend interessante riguardante gli investimenti globali in AI. Mentre gli investimenti privati nell’IA nel loro insieme sono quasi raddoppiati tra il 2020 e il 2021, sono leggermente diminuiti da allora. Gli investimenti nel 2023 sono scesi del 7% a $95,99 miliardi rispetto al 2022, che ha visto un calo ancora più significativo rispetto al 2021.
In termini del Ciclo di Hype di Gartner, sembrerebbe che il “Picco delle Aspettative Esagerate” sia avvenuto nel 2021. Se così fosse, il leggero calo nell’attuale “Abisso della Delusione” riflesso negli investimenti globali indicherebbe che il mercato vede ancora un grande valore nell’IA.
Inoltre, mentre gli investimenti complessivi nell’IA sono leggermente diminuiti, gli investimenti privati nell’IA generativa in particolare sono esplosi. Nel 2023. L’investimento in questa area è aumentato a $25,2 miliardi, che è un aumento di nove volte rispetto al 2022 e quasi 30 volte rispetto al 2019. Infatti, circa un quarto di tutti gli investimenti in AI nel 2023 poteva essere attribuito all’IA generativa in modo specifico.
Inoltre, per integrare la quantità di denaro investito, l’IA sta anche fornendo riduzioni dei costi e aumenti dei ricavi alle organizzazioni che la implementano. Complessivamente, il 42% dei partecipanti ha segnalato diminuzioni dei costi a seguito dell’implementazione dell’IA, mentre il 59% ha segnalato aumenti dei ricavi. Rispetto all’anno precedente, le organizzazioni hanno visto un aumento di 10 punti percentuali per le diminuzioni dei costi e un calo di 3 punti percentuali per gli aumenti dei ricavi.
Analizzando più nel dettaglio, le tre industrie che hanno riportato più frequentemente diminuzioni sono state la manifattura (55%), le operazioni di servizio (54%) e il rischio (44%). Per quanto riguarda i guadagni, le industrie più inclini a segnalare un beneficio sono state la manifattura (66%), il marketing e le vendite (65%) e la strategia e la finanza aziendale (64%).
Mancanza di Valutazioni Standardizzate sull’IA Responsabile Con l’integrazione sempre più profonda dell’IA nelle operazioni quotidiane della società, c’è un crescente desiderio di vedere responsabilità e affidabilità nella tecnologia. Il rapporto ha specificamente menzionato i benchmark responsabili TruthfulQA, RealToxicityPrompts, ToxiGen, BOLD e BBQ e ne ha monitorato le citazioni anno dopo anno. Anche se le citazioni non riflettono perfettamente l’uso dei benchmark, servono comunque come un indicatore generale dell’attenzione dell’industria su di essi. Ogni benchmark menzionato ha visto più citazioni nel 2023 rispetto al 2022, il che indicherebbe che le organizzazioni stanno prendendo seriamente in considerazione l’IA responsabile.
Detto ciò, l’Indice dell’IA ha anche menzionato che manca un benchmark standardizzato per la segnalazione dell’IA responsabile. Il rapporto menziona che non esiste un insieme universalmente accettato di benchmark sull’IA responsabile. TruthfulQA è utilizzato da tre dei cinque sviluppatori selezionati, mentre RealToxicityPrompts, ToxiGen, BOLD e BBQ sono stati utilizzati solo da uno dei cinque sviluppatori.
È chiaro che l’industria deve stabilire dei benchmark per l’IA responsabile e iniziare a standardizzare il prima possibile.
IA che Accelerare le Scoperte Scientifiche L’IA ha dimostrato più volte di essere uno strumento estremamente utile nell’ambito della scoperta scientifica. Il rapporto fa menzione di diverse applicazioni di IA legate alla scienza che hanno compiuto grandi progressi nel campo nel 2023:
AlphaDev: Un sistema di IA di Google DeepMind che rende più efficiente la classificazione algoritmica. FlexiCubes: Uno strumento di ottimizzazione della rete 3D che utilizza l’IA per l’ottimizzazione basata sul gradiente e parametri adattabili, migliorando così una vasta gamma di scenari nei videogiochi, nell’immagine medica e oltre. Synbot: Synbot integra la pianificazione dell’IA, il controllo robotico e l’esperimento fisico in un ciclo chiuso, consentendo lo sviluppo autonomo di ricette di sintesi chimica ad alto rendimento. GraphCast: Uno strumento di previsione meteorologica che può fornire previsioni meteorologiche accurate fino a 10 giorni in meno di un minuto. GNoME: Uno strumento di IA che facilita il processo di scoperta dei materiali. Il rapporto ha anche analizzato alcuni degli strumenti di IA più influenti in medicina:
SynthSR: Uno strumento di IA che converte le scansioni cerebrali cliniche in immagini ad alta risoluzione pesate in T-1. Sensori infrarossi plasmonici accoppiati: sensori infrarossi plasmonici accoppiati all’IA che possono rilevare malattie neurodegenerative come il morbo di Parkinson e l’Alzheimer. EVEscape: Questa applicazione di IA è in grado di prevedere l’evoluzione virale per migliorare la preparazione alle pandemie. AlphaMIssence: Consente una migliore classificazione delle mutazioni dell’IA.
Riferimento dell’Umano Pangenoma: Uno strumento di IA per aiutare a mappare il genoma umano. Il rapporto ha inoltre scoperto che l’IA medica altamente competente è qui ed è in uso. I sistemi di IA sono significativamente migliorati negli ultimi anni sul benchmark MedQA, che è un test cruciale per valutare l’esperienza clinica dell’IA. Con un tasso di accuratezza del 90,2%, il modello più notevole del 2023—GPT-4 Medprompt—ha ottenuto un miglioramento di 22,6 punti percentuali rispetto al punteggio più alto del 2022. Le prestazioni dell’intelligenza artificiale (IA) su MedQA sono quasi triplicate dal lancio del benchmark nel 2019.
Inoltre, la FDA sta trovando sempre più utilizzi nello spazio dell’IA. La FDA ha autorizzato 139 dispositivi medici correlati all’IA nel 2022, in aumento del 12,9% rispetto all’anno precedente. La quantità di dispositivi medici correlati all’IA che hanno ricevuto l’approvazione della FDA è più che quadruplicata dal 2012. L’IA viene applicata sempre di più a questioni mediche pratiche.
Educazione e “Brain Drain” del Talento dell’IA Anche se gli strumenti di IA possono rendere molti lavori più facili per i loro controparti umani, gli esseri umani devono comunque svolgere un ruolo nello sviluppo e nell’avanzamento della tecnologia. Pertanto, il rapporto ha dettagliato la forza lavoro umana dietro la rivoluzione dell’IA.
Per cominciare, il numero di laureati americani e canadesi in Informatica (CS) e dottorati continua a crescere, nonostante i nuovi laureati magistrali in CS siano rimasti relativamente stabili. I dati del 2011 hanno mostrato circa lo stesso numero di dottorandi appena laureati in AI che trovavano impiego in accademie (41,6%) e industria (40,9%). Ma entro il 2022, un percentuale molto più alta (70,7%) è entrata nel mondo del lavoro dopo la laurea rispetto a coloro che hanno proseguito gli studi (20,0%). La percentuale di dottorandi in AI che si sono diretti verso l’industria è aumentata di 5,3 punti percentuali nell’ultimo anno da solo, suggerendo un “brain drain” del talento accademico verso l’industria.
Inoltre, i programmi di laurea correlati all’IA sono in aumento a livello globale. Il numero di programmi di laurea post-laurea in inglese sull’IA è triplicato dal 2017, mostrando una crescita costante negli ultimi cinque anni. Ciò dimostra che le università di tutto il mondo vedono i vantaggi nell’offrire programmi di laurea più focalizzati sull’IA.
Mentre l’intelligenza artificiale è una parola abusata in molte industrie, molti potrebbero essere sorpresi che il suo utilizzo stia crescendo nei dispositivi medici, nella diagnostica e persino nello sviluppo di farmaci.
Di quelli appena aggiunti all’elenco, 155 sono dispositivi con date di decisione finale comprese tra il 1 agosto 2022 e il 30 luglio 2023, e 16 sono dispositivi di periodi precedenti identificati attraverso un perfezionamento dei metodi utilizzati per generare questo elenco.
Tre quarti dei dispositivi approvati sono per la radiologia. In altre aree, l’11% (57 dispositivi) è in cardiologia, mentre ci sono 15 e 14 dispositivi, rispettivamente, per ematologia e neurologia. Una manciata di dispositivi ciascuno sono per oftalmologia, gastroenterologia/urologia, e chirurgia generale e plastica.
La società con il maggior numero di dispositivi IA approvati è GE Healthcare Al secondo posto c’è Siemens Healthineers ha completato la top .
Tra le piccole aziende nello spazio dei dispositivi medici IA c’è iRhythm Technologies . L’azienda ha ottenuto l’approvazione nel luglio 2022 del suo sistema ZEUS e del relativo Zio Watch. Secondo iRhythm, l’orologio “utilizza un algoritmo basato sull’IA di fotopletismografia continua per rilevare [fibrillazione atriale] e calcolare una stima del carico di AFib”. Viene quindi inviato un rapporto al medico del paziente.
ZEUS e Zio sono stati sviluppati in collaborazione con Verily Life Sciences, la venture di ricerca sulle scienze della vita di Alphabet (GOOG).
Tra le grandi aziende di dispositivi medici, Medtronic ha diverse cose nella lista dei prodotti approvati. Questi includono dispositivi per il monitoraggio continuo della glicemia (Guardian Connect), un monitor elettrocardiogramma (TruRhythm Detection), e supporto alla rilevazione del cancro colorettale (GI Genius).
Grandi partnership farmaceutiche IA È importante notare che molte aziende con prodotti IA approvati sono piccole imprese private. Queste aziende hanno tendenzialmente lavorato con grandi aziende farmaceutiche. Due degne di nota sono Paige AI e PathAI.
Nel giugno 2022, Paige AI ha annunciato una collaborazione con l’unità Janssen di Johnson & Johnson per un test di biomarcatori basato sull’IA per lo screening del cancro alla vescica. I risultati saranno disponibili in meno di un’ora.
PathAI ha relazioni con Bristol-Myers Squibb , GlaxoSmithKline , e Roche . Nel agosto 2022, la FDA ha approvato la piattaforma di patologia digitale dell’azienda, AISight DX, per la diagnosi primaria in ambienti clinici. PathAI ha anche il prodotto AISight per la ricerca esplorativa e lo sviluppo di farmaci clinici.
Bristol sta utilizzando AISight per utilizzare la patologia potenziata dall’IA per la ricerca traslazionale in oncologia, fibrosi, e immunologia. Roche sta utilizzando un nuovo algoritmo sviluppato da PathAI nel suo software di flusso di lavoro di patologia digitale. E GSK ha iniziato una partnership nel 2022 per utilizzare lo strumento AIM-NASH di PathAI per potenziare i programmi di sviluppo di farmaci in oncologia e steatoepatite non alcolica.
La maggior parte dei dispositivi AI/ML in uso di fatto non fornisce una diagnosi, ma offre invece suggerimenti o consigli a medici o pazienti: ciò che è importante sottolineare è il ruolo prettamente analitico che svolgono questi strumenti, specializzati nella raccolta di dati e informazioni (come ad esempio il rilevamento della fibrillazione atriale dai dati ECG), mentre la diagnosi puntuale spetta interamente al medico.
L’IA per guidare l’innovazione dei dispositivi medici.
Un recente rapporto della società di analisi GlobalData sostiene che l’IA diventerà un motore significativo dell’innovazione dei dispositivi medici nel 2023, man mano che l’uso dell’IA tra i medici aumenta. La società ha notato che il mercato dei prodotti basati sull’IA cresce di 93 miliardi di dollari nel 2023, in aumento del 12% rispetto al 2022.
“Sappiamo che [l’IA] può essere utilizzata per scopi di gestione dei dati, chirurgia remota, assistenza diagnostica e procedurale, studi clinici, e altro ancora”, ha detto Alexandra Murdoch, analista di dispositivi medici presso GlobalData.
Il rapporto di GlobalData spiega che l’IA può migliorare l’efficienza della produzione di dispositivi medici e ridurre il rischio attraverso l’apprendimento automatico. Analizzando una vasta quantità di dati, i computer possono imparare dagli errori e fare miglioramenti.
Inoltre, l’IA influenzerà probabilmente ancora di più la salute digitale, a beneficio dei pazienti. Ad esempio, le applicazioni di telemedicina stanno utilizzando chatbot IA che prendono e analizzano i sintomi di un paziente, e poi forniscono orientamenti sulla salute.
In Italia con un occhio anche alla strategia nazionale per l’intelligenza artificiale (2022-2024), si e’ ragionato con l’Istituto Superiore di Sanità per comprendere: gli scenari generali per lo sviluppo delle applicazioni di IA sui dispositivi medici; le azioni che il soggetto pubblico può porre in essere, quale driver per l’adozione dell’IA in sanità e come rendere più sinergici i diversi ambiti in cui è applicata l’IA.
I modelli AI, o modelli di intelligenza artificiale, sono sistemi che utilizzano algoritmi per imitare le capacità dell’intelligenza umana. Questi modelli possono risolvere problemi o svolgere compiti e attività tipici della mente e dell’abilità umane.
Un modello di base è una particolare tipologia di modello di machine learning (ML) che viene addestrato per eseguire una specifica gamma di attività. Questi modelli di base sono stati programmati per avere una comprensione contestuale generica di andamenti, strutture e rappresentazioni. Questa conoscenza di base può essere ulteriormente affinata per eseguire attività specifiche per un dominio in qualsiasi settore.
Per esempio, ChatGPT è un’applicazione chatbot costruita sul modello base GPT-4 di OpenAI.
Le caratteristiche che definiscono i modelli di base e che ne consentono il funzionamento sono due: la capacità di trasferire le informazioni apprese e la scalabilità. La capacità di trasferire le informazioni apprese indica l’abilità di un modello di applicare le conoscenze in una situazione a un’altra. La scalabilità invece si riferisce a dei componenti hardware, le unità di elaborazione grafica (GPU), che consentono al modello di eseguire più operazioni allo stesso tempo.
Molti modelli di base, specialmente quelli impiegati nell’elaborazione del linguaggio naturale (NLP), nella visione artificiale e nell’elaborazione audio, vengono addestrati utilizzando il deep learning. Il deep learning è anche noto come apprendimento neurale profondo o reti neurali profonde e insegna ai computer a imparare tramite l’osservazione, simulando le modalità di acquisizione delle conoscenze tipiche degli esseri umani.
Per quanto non tutti i modelli di base utilizzino trasformatori, queste architetture sono state adottate in maniera diffusa per realizzare modelli di base che prevedevano la presenza di testo.
Il Center for Research on Foundation Models (CRFM) di Stanford ha confrontato la bozza dell’AI Act, con i modelli base delle IA più noti come , GPT-4 di OpenAI o Stable Diffusion v2 di Stability AI per verificare quanto l fossero già rispettossi della futura legge.
Non rispettano i requisiti della bozza per descrivere l’uso di dati di addestramento protetti da copyright, l’hardware utilizzato e le emissioni prodotte nel processo di addestramento, e come valutano e testano i modelli.
Perche‘ : La velocità di sviluppo che ha colto tutti impreparati.
Ricorda, queste informazioni sono in giornaliera evulzione Ti consiglio di verificare le informazioni più recenti online o direttamente dalle fonti ufficiali.
AutoCodeRover: AutoCodeRover è un ingegnere software autonomo che risolve problemi su GitHub in meno di dieci minuti ciascuno, superando gli sviluppatori che impiegano in media 2,77 giorni. Utilizza LLM e strumenti di debug per identificare in modo efficiente le posizioni delle patch, risolvendo circa il 22% dei 300 problemi reali testati con un costo minimo di LLM (~$0,5). Lo strumento impiega una ricerca del codice consapevole della struttura del programma e migliora i tassi di riparazione con suite di test tramite localizzazione di errori statistici, avanzando significativamente le pratiche di ingegneria del software AI.
Modelli di linguaggio
Anthropic Cookbook: Anthropic Cookbook ti aiuta a integrare Claude nei tuoi progetti con frammenti di Python, richiedendo una chiave API Anthropic. Guida a migliorare Claude con strumenti esterni, recupero di dati per l’accuratezza, citazione di fonti, impiego di Haiku come sub-agente, gestione di embedding con Voyage AI, elaborazione di immagini, Diffusione Stabile per la generazione di immagini, analisi di PDF, automazione di valutazioni, abilitazione della modalità JSON e creazione di filtri di moderazione dei contenuti.
Visione
Open-Sora-Plan: Questo progetto mira a riprodurre Sora (modello T2V di Open AI), permettendoti di generare contenuti video di alta qualità controllati dal testo, in particolare paesaggi. Puoi addestrare modelli per migliorare risoluzione e durata, impegnarti in esperimenti di text2video e affinare le condizioni del modello. Supporta l’addestramento su chip AI, incluso Huawei Ascend 910, con piani per una futura espansione a hardware domestico.
GPU/CPU
ipex-llm: ipex-llm è una libreria PyTorch per l’esecuzione di LLM su CPU e GPU Intel (ad es. PC locale con iGPU, GPU discreta come Arc, Flex e Max) con latenza molto bassa. L’implementazione supporta attualmente più di 50 modelli ed è basata su lavori precedenti come vLLM, llama.cpp, qlora, ecc. Può essere utilizzata per inferenza a basso bit o per il fine-tuning, e offre un’integrazione senza soluzione di continuità con altri framework come LangChain, Llama-Index o Hugging Face transformers.
L’intelligenza artificiale (AI) può svolgere diverse funzioni per migliorare la produttività e agire come assistente durante le riunioni. Ecco alcuni modi in cui l’AI può essere utilizzata in queste situazioni:
Automatizzazione delle attività ripetitive, Analisi dei dati, Assistenza nella ricerca e preparazione, Trascrizione e riassunto delle riunioni, Traduzione istantanea, Rilevamento delle emozioni e coinvolgimento, Assistenza nelle decisioni.
Produttività
Mem : Mem è il primo spazio di lavoro al mondo basato sull’intelligenza artificiale personalizzato per te. Amplifica la tua creatività, automatizza le attività banali e rimani organizzato automaticamente.
Taskade : delinea attività, note, elenchi strutturati generati e mappe mentali con Taskade AI.
Notion AI : scrivi note e documenti migliori e più efficienti.
Nekton AI : automatizza i tuoi flussi di lavoro con l’intelligenza artificiale. Descrivi i tuoi flussi di lavoro passo dopo passo in un linguaggio semplice.
Elephas : assistente personale di scrittura con intelligenza artificiale per Mac.
CreateEasily : strumento gratuito di conversione della voce in testo per creatori di contenuti che trascrive accuratamente file audio e video fino a 2 GB.
Riepilogo con AI : riepiloga qualsiasi PDF lungo con AI. Riepiloghi completi che utilizzano informazioni da tutte le pagine di un documento.
Emilio – Smetti di affogare nelle email – Emilio dà priorità e automatizza le tue email, risparmiando il 60% del tuo tempo
Pezzi : strumento di produttività abilitato all’intelligenza artificiale progettato per potenziare l’efficienza degli sviluppatori, con un copilota sul dispositivo che aiuta ad acquisire, arricchire e riutilizzare materiali utili, semplificare la collaborazione e risolvere problemi complessi attraverso una comprensione contestuale del flusso di lavoro degli sviluppatori
Assistenti alle riunioni
Otter.ai : un assistente alle riunioni che registra audio, scrive note, acquisisce automaticamente diapositive e genera riepiloghi.
Cogram : Cogram prende appunti automatici nelle riunioni virtuali e identifica le azioni da intraprendere.
Sybill – Sybill genera riepiloghi delle chiamate di vendita, inclusi i passaggi successivi, i punti critici e le aree di interesse, combinando trascrizione e approfondimenti basati sulle emozioni.
Loopin AI : Loopin è uno spazio di lavoro collaborativo per riunioni che non solo ti consente di registrare, trascrivere e riepilogare le riunioni utilizzando l’intelligenza artificiale, ma ti consente anche di organizzare automaticamente le note delle riunioni sul tuo calendario.
Speechmatics è considerato il più accurato e inclusivo API di trascrizione da voce a testo mai rilasciato. È in grado di comprendere e trascrivere il linguaggio umano in testo con precisione, indipendentemente da demografia, età, genere, accento, dialetto o posizione. Offre la trascrizione in tempo reale con bassa latenza e alta precisione. Supporta 48 lingue con una vasta copertura di accenti e dialetti. Offre opzioni di distribuzione sia basate su cloud che on-premises per la sicurezza dei dati :
Ha una potente motore di trascrizione e un’impressionante integrazione API.
Non offre soluzioni pronte all’uso. Il processo di configurazione fa parte del modello di apprendimento e quanto complicato possa essere dipende fortemente da come il cliente intende utilizzare Speechmatics.
Per la maggior parte dei clienti, ciò comporterà la creazione di un’interfaccia unica che si colleghi a Speechmatics tramite la sua API e quindi la gestione dell’elaborazione e della consegna dell’audio trascritto all’utente
Nonostante Speechmatics sia considerato da molti come il miglior algoritmo di Speech-to-Text, anche migliore di Watson di IBM, non sarà mai al 100% accurato. Considerando la portata più ampia degli strumenti di trascrizione AI, gli unici comparabili sono Otter e Brainia Pro. I rumori di fondo o gli oratori che mormorano possono ancora far fallire lo strumento e l’intervento umano è necessario.
In sintesi, Speechmatics è un potente strumento di trascrizione che può essere molto utile per le aziende che necessitano di trascrizioni accurate. Tuttavia, come con qualsiasi tecnologia di riconoscimento vocale, ci sono limitazioni e potrebbe essere necessario un intervento umano per garantire l’accuratezza.
Google Foto sta rivoluzionando il fotoritocco introducendo una nuova funzionalità chiamata Magic Editor, che sfrutta l’intelligenza artificiale per semplificare il processo di modifica delle foto. Grazie a Magic Editor, gli utenti possono regolare facilmente aree specifiche delle loro immagini, modificare il layout e aggiungere nuovi elementi, anche senza essere esperti di fotoritocco.
Questa innovativa funzione sarà disponibile per la prima volta su alcuni telefoni Pixel entro la fine dell’anno, offrendo agli utenti Pixel la possibilità di sperimentarla per primi. Inoltre, Google Foto sta introducendo altri strumenti alimentati dall’intelligenza artificiale, come la Gomma magica per rimuovere oggetti indesiderati dalle foto e Photo Unblur per correggere immagini sfocate, migliorando complessivamente l’esperienza di modifica delle foto.
Questi nuovi strumenti rappresentano un notevole avanzamento nel rendere più accessibile il fotoritocco avanzato, consentendo agli utenti di preservare e migliorare i loro ricordi in modo creativo, anche senza competenze professionali. Con Google Foto, la modifica delle foto diventa più semplice e divertente che mai, aprendo nuove possibilità creative per gli utenti di tutti i livelli di esperienza.
L’azienda, infatti, avrebbe deciso di diffondere il suo strumento di editing delle immagini, eliminando la necessità di un abbonamento a Google One
Apple concentrerà la prossima versione della sua famiglia di chip M sull’Intelligenza Artificiale nel tentativo di aumentare le vendite di Mac, ha riferito Bloomberg.
I chip M4 saranno costruiti sullo stesso processo a 3 nanometri dei chip M3, ma il fornitore TSMC utilizzerà probabilmente una versione migliorata del processo a 3 nm per aumentare le prestazioni e l’efficienza energetica. Apple prevede inoltre di aggiungere un neural engine molto migliorato con un numero maggiore di core per le attività di Intelligenza Artificiale.
La prossima versione dei chip della serie M, conosciuta come M4, sarà disponibile in tre varietà, ha riferito il Bloomberg. L’M4 è già in fase di produzione e verrà eventualmente installato su ogni Mac, con annunci che arriveranno già quest’anno.
Il chip M1 è il primo processore per personal computer realizzato utilizzando la rivoluzionaria tecnologia di elaborazione a 5 nanometri e integra ben 16 miliardi di transistor, il numero più elevato mai racchiuso da Apple in un chip
Nell’ambito del rinnovamento, Apple fornirà ai nuovi iMac, al MacBook Pro da 14 pollici di fascia bassa, al MacBook Pro di fascia alta e ai Mac Mini i nuovi chip M4. Altri Mac M4 potrebbero arrivare nel 2025, inclusi i nuovi MacBook Air, Mac Studio e Mac Pro.
Apple, con sede a Cupertino, in California, ha presentato la versione precedente della serie M, la M3, in ottobre, insieme a nuove versioni di MacBook Pro e una versione aggiornata di iMac.
Apple ha aggiornato il MacBook Air con i chip M3 il mese scorso e ha evidenziato le capacità AI del nuovo notebook.
“E con un Neural Engine più veloce ed efficiente in M3, MacBook Air continua a essere il miglior laptop consumer al mondo per l’intelligenza artificiale“, ha affermato Apple nel comunicato.
La maggior parte dei nuovi iPhone e iPad hanno un Neural Engine , un processore speciale che rende i modelli di machine learning davvero veloci, ma non si sa pubblicamente come funzioni effettivamente questo processore.
L’Apple Neural Engine (o ANE) è un tipo di NPU , che sta per Neural Processing Unit. È come una GPU, ma invece di accelerare la grafica, una NPU accelera le operazioni della rete neurale come convoluzioni e moltiplicazioni di matrici.
L’ANE non è l’unica NPU disponibile: molte aziende oltre ad Apple stanno sviluppando i propri chip acceleratori AI. Oltre al Neural Engine, la NPU più famosa è la TPU (o Tensor Processing Unit) di Google.
È molto più veloce della CPU o della GPU! Ed è più efficiente dal punto di vista energetico .
Ad esempio, quando si esegue un modello su video in tempo reale, l’ANE non surriscalda il telefono e scarica la batteria molto meno rapidamente. Gli utenti lo apprezzeranno.
L’esecuzione dei tuoi modelli su ANE lascerà la GPU libera per eseguire attività grafiche e lascerà la CPU libera per eseguire il resto della tua app.
Considera questo: molte moderne architetture di rete neurale funzionano effettivamente più velocemente sulla CPU che sulla GPU (quando si utilizza Core ML). Questo perché gli iPhone hanno CPU davvero veloci! Inoltre, c’è sempre un certo sovraccarico nella pianificazione delle attività da eseguire sulla GPU, che potrebbe annullare qualsiasi aumento di velocità.
L’atteso aggiornamento arriva in un momento in cui le vendite dei Mac hanno avuto difficoltà. I ricavi dei Mac per il trimestre conclusosi a dicembre sono cresciuti solo dello 0,6% su base annua arrivando a 7,78 miliardi di dollari.
Tuttavia, le vendite potrebbero aver subito una svolta nel periodo più recente, poiché la società di ricerca IDC ha dichiarato che Apple ha spedito 4,8 milioni di unità durante il primo trimestre, in crescita del 14,6% su base annua. Alla fine del periodo deteneva l’8,1% del mercato globale dei PC, in aumento rispetto al 7,1% dello stesso periodo di un anno fa, ha aggiunto IDC.
Apple dovrebbe tenere la sua conferenza annuale degli sviluppatori a giugno, dove si prevede che il colosso della tecnologia si concentrerà su una serie di iniziative legate all’intelligenza artificiale.
Andrej Karpathy, precedentemente nel team fondatore di OpenAI e Direttore di AI presso Tesla, ha rilasciato il suo secondo progetto educativo sui Modelli di Linguaggio (LLM).
Questo progetto si concentra sull’addestramento di un modello GPT-2 con 124 milioni di parametri su una CPU utilizzando solo C/CUDA, evitando PyTorch.
Il codice contiene circa 1.000 righe di codice in un unico file, permettendo l’addestramento di GPT-2 su una CPU con precisione a 32 bit.
Questa è una risorsa fenomenale per capire come vengono addestrati i modelli di linguaggio.
Karpathy ha scelto GPT-2 perché i pesi del suo modello sono pubblicamente disponibili. Il progetto utilizza C per la sua semplicità e interazione diretta con l’hardware.
Inizialmente, il repository permette di scaricare e tokenizzare un piccolo dataset su cui il modello viene addestrato. In teoria, il modello potrebbe essere addestrato direttamente su questo dataset.
Tuttavia, l’attuale implementazione CPU/fp32 è ancora inefficiente, il che rende non pratico addestrare questi modelli da zero. Invece, i pesi di GPT-2 rilasciati da OpenAI vengono inizializzati e perfezionati sul dataset tokenizzato.
Karapthy sta attualmente lavorando su:
implementazione diretta di CUDA, che sarà significativamente più veloce e probabilmente si avvicinerà a PyTorch. accelerare la versione CPU con istruzioni SIMD, AVX2 su x86 / NEON su ARM (ad esempio, Apple Silicon) ,architetture più moderne, ad esempio Llama2, Gemma, ecc.
Il lavoro di Karpathy contribuisce significativamente alla comunità open-source e al campo dell’IA. Questo secondo progetto educativo va un passo avanti nella democratizzazione dell’IA mostrando come un modello può essere addestrato e ottimizzato utilizzando un singolo file di codice.
Andrey Karpathy: “Scrivere il codice di addestramento llm.c sarebbe a mio parere una sfida molto interessante, impressionante, autonoma e molto meta per gli agenti LLM.”
Dave Deriso: “Spero che più sviluppatori riscoprano l’efficienza elegante del C, soprattutto ora che i copiloti llm aiutano a ridurre le barriere intensive di memoria nel richiamare la sintassi e le molte funzioni integrate.”
Nell’era digitale di oggi, l’intelligenza artificiale (AI) e gli effetti visivi (VFX) stanno trasformando il modo in cui vediamo e percepiamo il mondo del cinema. Una delle aziende leader in questo campo è Viggle AI, che sta utilizzando la tecnologia AI per migliorare e ottimizzare il processo di creazione degli effetti visivi.
L’Intelligenza Artificiale nel Mondo del Cinema
L’intelligenza artificiale sta diventando sempre più prevalente nel settore cinematografico. Da semplici compiti come il riconoscimento facciale e la modellazione 3D, fino a compiti più complessi come la creazione di personaggi completamente CGI, l’AI sta rivoluzionando il modo in cui i film vengono realizzati.
Viggle AI è all’avanguardia in questo campo. Utilizzando algoritmi di apprendimento automatico avanzati, sono in grado di creare modelli 3D dettagliati e realistici di personaggi e ambienti. Questo non solo riduce il tempo e lo sforzo necessari per creare questi elementi, ma migliora anche la qualità generale degli effetti visivi.
VFX e Viggle AI
Gli effetti visivi, o VFX, sono un elemento fondamentale di molti film moderni. Da film d’azione ad alto budget a film indipendenti, i VFX sono utilizzati per creare scene che sarebbero impossibili o troppo costose da realizzare in modo tradizionale.
Basato su JST-1, il primo modello di base video-3D con una reale comprensione della fisica, a partire dal far muovere qualsiasi personaggio come desideri.
Viggle AI sta utilizzando l’intelligenza artificiale per migliorare il processo di creazione degli effetti visivi. Utilizzando l’AI, sono in grado di creare effetti più realistici e dettagliati in meno tempo. Inoltre, l’AI può essere utilizzata per ottimizzare il processo di rendering, riducendo ulteriormente i tempi e i costi di produzione.
Viggle AI sta rivoluzionando il mondo del cinema con l’uso dell’intelligenza artificiale e degli effetti visivi. Con la loro tecnologia, sono in grado di creare film di alta qualità in meno tempo e con meno risorse. Mentre l’industria del cinema continua a evolvere, è probabile che vedremo sempre più l’uso dell’AI e dei VFX nel processo di produzione cinematografica. E con aziende come Viggle AI all’avanguardia, il futuro del cinema sembra luminoso.
OpenAI ha fatto un annuncio importante oggi attraverso il suo account X: il modello GPT-4 Turbo with Vision è ora “generalmente disponibile” tramite le sue API. Questa nuova versione del modello di intelligenza artificiale di OpenAI promette di rivoluzionare il modo in cui le applicazioni interagiscono con il linguaggio naturale e le immagini.
GPT-4 Turbo with Vision è un modello di intelligenza artificiale avanzato che combina la capacità di elaborazione del linguaggio naturale di GPT-4 con la capacità di analisi delle immagini. Questo modello è stato addestrato su una vasta gamma di dati, tra cui testi, immagini e video, per fornire risposte più accurate e pertinenti alle query degli utenti.
Con la disponibilità generale di GPT-4 Turbo with Vision tramite le API di OpenAI, gli sviluppatori possono ora integrare facilmente questa tecnologia all’avanguardia nelle loro applicazioni. Questo significa che le applicazioni potranno elaborare e comprendere il linguaggio naturale e le immagini in modo più accurato e veloce, fornendo agli utenti un’esperienza più fluida e intuitiva.
Con questa nuova versione, le capacità di computer vision di GPT-4 possono essere integrate nelle applicazioni tramite API testuali JSON, semplificando enormemente il lavoro degli sviluppatori.
Il JSON genera uno snippet di codice che gli sviluppatori possono utilizzare per automatizzare le azioni all’interno delle loro app connesse, come l’invio di e-mail, la pubblicazione di contenuti online o l’effettuazione di acquisti.
OpenAI ha dichiarato che la disponibilità generale di GPT-4 Turbo with Vision è un passo importante verso la realizzazione della sua visione di un’intelligenza artificiale accessibile a tutti. L’azienda prevede di continuare a migliorare e sviluppare la sua tecnologia per fornire soluzioni di intelligenza artificiale sempre più avanzate e innovative.
In un mondo sempre più connesso e dipendente dalla tecnologia, l’annuncio di OpenAI sulla disponibilità generale di GPT-4 Turbo with Vision rappresenta un passo importante verso un futuro in cui l’intelligenza artificiale sarà sempre più integrata nella nostra vita quotidiana. Gli sviluppatori e le aziende che adotteranno questa tecnologia all’avanguardia saranno in grado di fornire esperienze utente più avanzate e innovative, aprendo la strada a nuove opportunità e possibilità.
Mistral AI ha recentemente annunciato il lancio del suo nuovo modello di linguaggio open-source, Mixtral 8x22B. Il modello, basato sulla tecnologia proprietaria di Mistral, è progettato per fornire agli sviluppatori uno strumento potente per la creazione di applicazioni di elaborazione del linguaggio naturale.
Tuttavia, alcuni esperti hanno sollevato preoccupazioni sulla potenziale minaccia che Mixtral 8x22B potrebbe rappresentare per la libertà di pensiero e la privacy individuale. Con la capacità di elaborare e generare testo in più lingue, il modello potrebbe essere utilizzato per monitorare e analizzare le conversazioni private su larga scala.
Inoltre, la decisione di Mistral di rendere open-source il modello potrebbe facilitare l’accesso a questa tecnologia da parte di governi e organizzazioni con intenzioni malevole. In un mondo in cui la sorveglianza di massa è già una realtà, l’introduzione di strumenti di elaborazione del linguaggio naturale sempre più potenti potrebbe portare a un ulteriore erosione della privacy individuale.
“La libertà di pensiero è fondamentale per una società libera e aperta,” ha affermato l’attivista per la privacy Jane Smith. “Dobbiamo essere vigili e assicurarci che le nuove tecnologie non vengano utilizzate per limitare la nostra libertà e violare la nostra privacy.”
Mentre Mistral sostiene che il suo modello open-source sia un passo avanti verso un’IA più accessibile e democratica, alcuni esperti avvertono che dobbiamo essere cauti nell’abbracciare questa tecnologia senza considerarne le potenziali conseguenze negative.
Con Mixtral 8x22B ora disponibile per il download su GitHub, rimane da vedere come gli sviluppatori e le organizzazioni utilizzeranno questo potente strumento di elaborazione del linguaggio naturale. Tuttavia, è importante che rimaniamo vigili e ci assicuriamo che la tecnologia non venga utilizzata per limitare la nostra libertà e violare la nostra privacy.
Spotify, il gigante dello streaming musicale, ha recentemente introdotto una funzionalità rivoluzionaria chiamata “AI Playlist”. Questa nuova funzionalità permette agli abbonati Premium nel Regno Unito e in Australia di creare playlist utilizzando semplici comandi di testo.
Come funziona?
Oltre alle classiche richieste di playlist basate su genere o periodo, l’intelligenza artificiale di Spotify permette agli utenti di richiedere playlist personalizzate molto più specifiche. Ad esempio, potrebbero chiedere “brani per un viaggio sulla Route 66” o “musica per un picnic nel parco”. Spotify suggerisce che le richieste possono riguardare qualsiasi cosa, come eventi storici, cibi, hobby, personaggi letterari, tonalità o simboli.
Spotify utilizza la sua conoscenza dei gusti musicali degli utenti per personalizzare ulteriormente le playlist create con questa funzione.
Una volta generata la playlist, gli utenti possono utilizzare l’intelligenza artificiale per rivedere e affinare la selezione musicale con comandi come “meno tristi” o “più rock”. Inoltre, gli utenti hanno la possibilità di scorrere verso sinistra su qualsiasi brano per eliminarlo dalla playlist.
Dal punto di vista tecnologico, Spotify afferma di utilizzare Large Language Models (LLM) per interpretare le intenzioni dell’utente. Successivamente, Spotify applica la sua tecnologia di personalizzazione, basata sulla cronologia di ascolto e le preferenze dell’utente, per creare una playlist personalizzata generata dall’intelligenza artificiale.
Perché è importante?
La nuova funzionalità AI Playlist di Spotify rappresenta un importante passo avanti nell’uso dell’intelligenza artificiale nel settore musicale. Questa tecnologia non solo rende l’esperienza di ascolto più personalizzata, ma potrebbe anche aprire la porta a nuove forme di interazione tra artisti e fan.
Cosa significa per gli utenti?
Per gli abbonati Premium di Spotify nel Regno Unito e in Australia, questa nuova funzionalità offre un nuovo livello di personalizzazione. Ora possono creare facilmente playlist che si adattano perfettamente al loro umore, attività o preferenze musicali con un semplice comando di testo.
Spotify ha inoltre recentemente introdotto un nuovo DJ basato sull’intelligenza artificiale, che offre una cura personalizzata della musica, inclusi commenti parlati.
Spotify ha utilizzato una combinazione di tecnologia Sonantic e OpenAI per creare una versione artificiale della voce del capo delle partnership culturali di Spotify, Xavier “X” Jernigan, che introduce selezioni di brani personalizzate per l’utente.
Bill Simmons è un uomo che indossa molti cappelli su Spotify. Oltre ad essere il fondatore e amministratore delegato di The Ringer, che comprende un sito Web e una rete di podcast dedicati allo sport e alla cultura pop, è anche responsabile dell’innovazione e della monetizzazione dei podcast presso Spotify, dove sta sfruttando la sua esperienza presso The Ringer costruendo un alto livello di generare profitti attraverso l’innovazione e forti partnership e applicandoli al resto dell’azienda. Oltre a ciò, Bill ospita anche più podcast, tra cui The Rewatchables .
Ora, a quanto pare, lo streamer potrebbe trasformare la stessa tecnologia in pubblicità. Secondo le dichiarazioni del fondatore di The Ringer, Bill Simmons, il servizio di streaming sta sviluppando una tecnologia AI che sarà in grado di utilizzare la voce dell’host di podcast per creare annunci letti dall’host, senza che l’host debba effettivamente leggere e registrare il testo dell’annuncio.
Simmons ha rilasciato le dichiarazioni in un recente episodio di The Bill Simmons Podcast, dicendo: “Ci sarà un modo per usare la mia voce per le pubblicità. Ovviamente devi dare l’approvazione per la voce, ma ti apre, dal punto di vista pubblicitario, tutte queste diverse grandi possibilità.
Ha detto che questi annunci potrebbero aprire nuove opportunità per i podcaster perché potrebbero indirizzare geograficamente gli annunci – come i biglietti per un evento locale nella città dell’ascoltatore – o persino creare annunci in diverse lingue, con il permesso dell’host.
La maggior parte delle funzionalità supportate dall’intelligenza artificiale su Spotify sono attualmente limitate agli utenti premium e un recente rapporto di Spotify ha anche lasciato intendere che la piattaforma sta pianificando di aumentare il costo dell’abbonamento da $ 1 a $ 2 in mercati selezionati.
Non solo, la piattaforma sta anche implementando maggiori restrizioni al suo livello gratuito, costringendo più persone a pagare l’abbonamento premium per ottenere la migliore esperienza possibile su Spotify.
Altra novita’ Spotify sta lavorando a una funzionalità che consente agli abbonati di mixare brani e modificare la velocità di riproduzione: una funzionalità simile a quella di un DJ progettata per soddisfare i suoi utenti giovani ed esperti di social media, ha riferito il WSJ .
Gli utenti tra i 14 e i 20 anni utilizzano già la musica preferita cut, spliced, sped up and slowed down)per accompagnare la ricerca di video virali su servizi come TikTok e Instagram Reels .
Per questo motivo Spotify sta cercando di approfondire il coinvolgimento di questi utenti garantendo al tempo stesso che gli artisti e le etichette musicali siano ricompensati per tale utilizzo (Royalties) , secondo il rapporto del WSJ .
Per ora, funzionalità come accelerare o rallentare la musica (una funzionalità popolare su TikTok) sarebbero disponibili per gli abbonati regolari a Spotify , ha affermato il WSJ , mentre funzionalità più avanzate potrebbero essere prese di mira per una proposta “supremium” di fascia alta. livello di servizio.
Gli artisti in cerca di compenso pubblicano sempre più versioni multiple delle proprie canzoni (a velocità aggiuntive) per soddisfare la domanda di varietà del gruppo demografico.
Questo potrebbe garantire un nuovo Target All Azienda.
FirstMark e’ un stageventure capital firm Basata in NYC e ha pubblicato l’ultima analasi sul Mercato Machine Learning, AI & Data (MAD) lo fa da un decennio.
Per vedere il PDF 2024 MAD Landscape iin HD CLICK HERE please Zoom.
Per Accedere all’ interactive version del 2024 MAD landscape, please CLICK HERE
Nel mondo frenetico della tecnologia, dove l’innovazione è la norma e il cambiamento è costante, il Paesaggio del Machine Learning, dell’Intelligenza Artificiale e dei Dati per il 2024 rappresenta una testimonianza dell’evoluzione rapida e della proliferazione di questi campi trasformativi.
Il grafico è una rappresentazione visuale dell’intreccio intricato di aziende, tecnologie e tendenze che plasmano l’ecosistema del ML, dell’IA e dei dati. Dall’infrastruttura dati all’analisi, dall’abilitazione all’IA alle applicazioni, ogni segmento del paesaggio racconta una storia di innovazione, competizione e collaborazione.
Il panorama MAD del 2024 presenta un totale di 2.011 loghi, in aumento rispetto ai 1.416 dell’anno precedente, con 578 nuovi partecipanti alla mappa. A titolo di confronto, la prima versione del 2012 contava solo 139 loghi.
La natura intensamente affollata del panorama è principalmente il risultato di due massive ondate consecutive di creazione di aziende e finanziamenti.
La prima ondata è stata il ciclo della infrastruttura dati, che è iniziato con il Big Data e si è concluso con il Modern Data Stack. Il consolidamento tanto atteso in questo settore non è ancora completamente avvenuto, e la stragrande maggioranza delle aziende è ancora presente.
La seconda ondata è il ciclo del ML/AI, che è iniziato seriamente con l’AI generativa. Essendo ancora nelle prime fasi di questo ciclo e la maggior parte delle aziende è molto giovane, sono stati inclusi liberamente nella mappa anche giovani startup (molte delle quali sono ancora allo stadio di seed).
Da notare che queste due ondate sono strettamente correlate. Un’idea fondamentale del panorama MAD è sempre stata quella di mostrare la relazione simbiotica tra l’infrastruttura dati (sulla parte sinistra), analytics/BI e ML/AI (nel mezzo) e le applicazioni (sulla parte destra).
Sebbene ogni anno diventi sempre più difficile inserire il numero sempre crescente di aziende nella mappa, il modo migliore per pensare allo spazio MAD è come una linea di produzione – un ciclo completo dei dati dalla raccolta alla memorizzazione al processamento fino alla consegna del valore attraverso analytics o applicazioni.
Le principali modifiche nell’infrastruttura e nell’analitica sono le seguenti:
Ci sono pochissime modifiche alla struttura complessiva del lato sinistro del panorama, poiché, come vedremo di seguito (il Modern Data Stack è morto?), questa parte del panorama MAD ha visto meno attività ultimamente.
Alcune modifiche degne di nota includono la rinomina di “Database Abstraction” in “Multi-Model Databases & Abstractions” per catturare l’onda crescente intorno a un gruppo di database ‘Multi-Model’ all-in-one (SurrealDB*, EdgeDB);
l’eliminazione della sezione “Crypto / Web 3 Analytics” che abbiamo creato sperimentalmente l’anno scorso, che sembrava fuori posto in questo panorama; e la rimozione della sezione “Query Engine”, che sembrava più una parte di una sezione che una sezione separata (tutte le aziende in quella sezione appaiono ancora nella mappa – Dremio, Starburst, PrestoDB, ecc.).
Le principali modifiche nell’ambito del Machine Learning & Artificial Intelligence includono:
Con l’esplosione delle aziende di intelligenza artificiale nel 2023, è qui che abbiamo apportato di gran lunga il maggior numero di modifiche strutturali.
Date le enormi attività nel livello di ‘AI enablement’ nell’ultimo anno, ci sono 3 nuove categorie accanto a MLOps:
“AI Observability” è una nuova categoria quest’anno, con startup che aiutano a testare, valutare e monitorare le applicazioni LLM
“I piattaforme di sviluppo AI” è concettualmente vicino a MLOps ma abbiamo voluto riconoscere l’onda di piattaforme focalizzate interamente sullo sviluppo di applicazioni AI, in particolare intorno alla formazione, distribuzione e inferenza LLM
“AI Safety & Security” include aziende che affrontano le preoccupazioni innate legate agli LLM, dall’allucinazione all’etica, la conformità normativa, ecc.
Se la disputa molto pubblica tra Sam Altman ed Elon Musk ci ha insegnato qualcosa, è che la distinzione tra commerciale e non profit è fondamentale quando si tratta di sviluppatori di modelli fondamentali.
Pertanto, si e’ diviso ciò che in precedenza era “AI/AGI Orizzontale” in due categorie: “Ricerca AI commerciale” e “Ricerca AI non profit”.
L’ultima modifica che e’ stata apportata è stata un’altra modifica di nomenclatura, dove ora compare “GPU Cloud” per riflettere l’aggiunta dei set di funzionalità di base dell’infrastruttura effettuata da molti dei fornitori di GPU Cloud: in “GPU Cloud / ML Infra”.
Le principali modifiche nelle “Applicazioni” includono:
Il più grande aggiornamento qui è che… a sorpresa di nessuno… ogni azienda di livello applicativo è ora una “azienda di AI” autoproclamata – il che, per quanto abbiamo cercato di filtrare, ha causato l’esplosione dei nuovi loghi che vedete sul lato destro del panorama MAD quest’anno.
Alcune modifiche minori sulla struttura includono:
In “Applicazioni orizzontali”, c’e’ una categoria “Presentazione e Design”. Rinominato “Ricerca” in “Ricerca / AI conversazionale” per riflettere la crescita delle interfacce basate su chat alimentate da LLM come Perplexity.
Nel settore “Industria”, rinominato “Gov’t & Intelligence” in “Aerospace, Defense & Gov’t”.
Le principali modifiche nell’ambito dell’infrastruttura open source includono:
Unito categorie che sono sempre state vicine, creando una singola categoria “Gestione dei dati” che spazia sia su “Accesso ai dati” che su “Data Ops”.
Aggiunto una nuova categoria importante, “Local AI”, poiché i costruttori hanno cercato di fornire gli strumenti infrastrutturali per portare l’IA e gli LLM nell’era dello sviluppo locale.