Che cos’è il business dei dati? Se ne parla molto ultimamente, ma il business dei dati è una cosa molto antica, informaticamente parlando. Il business dei dati, o sui dati, è nato contemporaneamente alla Business Intelligence nel 1958 grazie ad un ricercatore tedesco che si chiamava Hans Peter Luhn mentre lavorava per l’IBM. La Business Intelligence ha bisogno di dati, e da subito si è iniziato a chiedere se c’erano delle raccolte di dati da poter acquistare in giro per alimentare i sistemi di Business Intelligence.
Perché è importante oggi? Grazie alla crescita dell’informatica ci sono dati che hanno una certa importanza. Pensiamo ai dati del meteo, le società di raccolta dati hanno il maggior ricavo proprio dalla loro vendita. Il mercato è però esploso quando i dati personali, come quelli collegati ai nostri account, sono diventati un asset industriale.
Per capire meglio come funziona questo business andiamo a vedere come funziona il business dei dati, come si acquistano e come si vendono, la differenza tra i dati storici e i dati freschi, come vengono catalogati, come sfruttare i propri dati all’interno del proprio business, come diventano importanti quando vengono sfruttati insieme all’intelligenza artificiale.
Come funziona il business dei dati: i grandi marketplace
Il modo più veloce per avere dei dati è indubbiamente acquistarli in un marketplace.
Ma cos’è un marketplace dei dati?
Tutti noi abbiamo presente Amazon o il marketplace di Facebook. Un marketplace dei dati è un sito simile ad un ecommerce dove i dati vengono catalogati per tipo (Finanziari, Ambiente, Vendite, Utenti, Meteo e via dicendo) e per fornitore, c’è un motore di ricerca interno per permettere la ricerca
Una volta che ti sei registrato come acquirente puoi cercare i dati che ti interessano, con la fornitura e con la completezza che meglio si adatta alla tua tecnologia, e dal prezzo che più sembra corretto.
Come funziona il processo di acquisto e vendita dei dati?
Per farla semplice mettiamo conto che hai costruito una app che aiuta i turisti a vedere dove si trovano i musei più vicini a loro. Quindi hai l’insieme dei musei italiani, con la loro posizione geografica, l’url del sito, l’orario di apertura, il prezzo del biglietto.
Questi sono dati che puoi mettere in vendita su un marketplace. Ma come?
Semplice; devi scegliere il modo in cui vendi questi dati, in pratica devi scegliere il packaging e le quantità.
Il packaging è il formato in cui vendi i dati, ad esempio in csv o in json che sono 2 formati di dati molto usati in questo mondo.
Le quantità invece è quanti dati un acquirente può acquistare, ad esempio puoi vendere tutto il database, oppure vendere i dati a chiamata che è quello che noi chiamiamo API.
Per fare un esempio pratico con numeri semplificati, hai un database con 1000 musei, puoi venderlo tutto insieme con un abbonamento a 100€ l’anno, oppure vendere il singolo museo tramite una API a 0,10€.
Ovviamente questi valori sono un esempio, nessuno andrebbe su un marketplace per 1000, per essere appetibile bisogna avere tutti i musei d’Italia o d’Europa, però una volta che hai creato tutto basta registrare la propria azienda in uno dei tanti marketplace e farsi un po’ di pubblicità online.
Vediamo ora qualche esempio di marketplace
Iniziamo col dire che le più grandi piattaforme cloud hanno il loro marketplace interno, quindi AWS Marketplace, Google Cloud Marketplace e Azure Marketplace (carini quelli di Microsoft, hanno fatto il manuale!), ma ci sono anche marketplace indipendenti, come Datarade o Data World.
Nei marketplace, solitamente, cerchi per categoria, vedi che tipo di dati vengono offerti e la modalità di acquisto/vendita.
Vantaggi e svantaggi dei marketplace
I marketplace sono comodi, ma hanno i loro pro e i loro contro.
Negli ultimi anni abbiamo sperimentato sul campo che spesso la quantità di dati in vendita sono troppi per i clienti che li cercano, ed è un problema.
Il problema è che lo storage, lo spazio per tenere questi dati, costa, e quando parliamo di milioni o miliardi di record è un costo che pesa sul budget del progetto.
Inoltre abbiamo visto che spesso chi deve prendere le decisioni per l’acquisto non ha l’esperienza necessaria per sapere se i dati che vorrebbero acquistare siano sufficienti, o insufficienti, o del formato utile per il proprio progetto, col problema di avere o troppi dati o troppo pochi o difficili e costosi da integrare sul proprio servizio.
Però indubbiamente è molto più semplice e veloce acquistare i dati quando devi creare un nuovo progetto che mettere in piedi tutta l’infrastruttura per collezionarli da zero.
Dati storici e dati freschi: la differenza tra l’uso dei dati storici da quelli freschi
I dati non sono tutti uguali, ma ci sono due grosse famiglie di dati da cui partire, i dati storici e i dati real time, o come li chiamo io dati freschi.
Cos’è un dato storico?
Un dato storico è una raccolta dello stesso dato nel tempo. Concettualmente semplice, ma vediamo un esempio pratico:
Un dato storico può essere l’elenco delle vendite degli immobili di Los Angeles negli ultimi 20 anni.
Questi dati sono usati per fini statistici, ma grazie all’IA anche per le previsioni a breve.
Se ampliamo la visione i dati storici possono essere il cuore di tutta una serie di servizi, pensiamo alla finanza, o ai trasporti commerciali, alle banche e alle assicurazioni e via dicendo. I dati storici
Cos’è un dato fresco?
Un dato fresco, o come tecnicamente si chiama, a real time data, è invece la fotografia di un dato all’ultimo cambiamento.
In pratica un dato fresco sono tutti quei dati che vanno dal valore di una azione o di una criptovaluta al meteo corrente in una città.
Applicazioni dei dati storici
Durante la giornata abbiamo tantissimi esempi di come i dati storici ci aiutano a fare una scelta o ad avere servizi migliori.
Il meteo ed il clima ad esempio sono calcolati sui dati storici (il meteo di giorni, il clima di anni), i vari trend di mercato usano i dati storici, o la storia delle notizie che hai aperto su Google Discovery serve a fornirti l’elenco delle notizie probabilmente più interessanti per te.
Un’altro trend che grazie all’IA sta usando al meglio i dati storici sono le previsioni.
Grazie alla velocità di calcolo dell’IA e ad una giusta quantità di dati storici è possibile prevedere le vendite di un prodotto, la produzione di una fabbrica.
Applicazioni dei dati freschi
Riprendiamo l’esempio di Google Discovery, da una parte ha i tuoi dati storici, dall’altra parte ha le notizie appena pubblicate.
Ecco le notizie appena pubblicate sono dati freschi.
Abbiamo tanti esempi di dati freschi, ma il più eloquente sono le notifiche sugli smartphone.
Una notifica è l’avviso che è arrivato un dato fresco, può essere un commento su Facebook, il valore del Bitcoin che ha superato una certa soglia, l’arrivo di una nuova email.
Saper catalogare i dati: i princìpi dietro alle catalogazioni dei dati
Se avete avuto modo di vedere i marketplace avrete notato come sono catalogati i dati.
La catalogazione di grandi quantità di dati è un’altro volto importante del business dei dati.
Vediamo in breve cosa c’è dietro.
Perché catalogare i dati?
Organizzare i dati è il primo passo per industrializzarne l’uso, e quindi renderli appetibili ad un possibile acquirente.
I diversamente giovani sicuramente si ricorderanno gli elenchi telefonici che ogni anno la Telecom consegnava agli abbonati.
Erano organizzati in 2 tipi: Pagine Bianche, con l’elenco dei privati raggruppati per comune o zona geografica e elencati in ordine alfabetico. Pagine Gialle con l’elenco delle aziende raggruppate per categoria merceologica, per zona e infine elencati in ordine alfabetico.
Grazie a tutto il lavoro fatto da centinaia di persone prima e poi dai primi computer industriali poi noi ritenevamo utili gli elenchi telefonici.
Questo esempio spiega bene che una organizzazione ben pensata è un plus valore importante.
Principi fondamentali della catalogazione
Vediamo ora la triade dei concetti fondamentali su cui si base l’organizzazione dei dati: Metadata, Tassonomie, Ontologie.
I Metadata sono un elenco di dati strutturati che offrono informazioni extra ai dati principali. Un esempio sono le informazioni a corredo che gli smartphone lasciano nelle foto: risoluzione foto in pixel, formato della foto, qualità dell’immagine, durata dello scatto, dimensione del diaframma e posizione geografica del posto in cui è stata scattata la foto.
Le Tassonomie invece le conosciamo meglio. Una delle tassonomie più usate è la catalogazione degli esseri viventi. Gli animali sono associati alla tassonomia “Classe” che è quella i cui vengono divisi in mammiferi, rettili e uccelli.
Poi ci sono le altre tassonomie, ad esempio i mammiferi sono divisi con la tassonomia “Sottoclasse” in Teri e Prototeri, successivamente c’è la tassonomia “Infraclasse” che identifica i placentati dai non placentati e così via.
Se vi guardate in giro potrete capire facilmente che ogni oggetto che vi sta intorno ha delle tassonomie associate, le posate da cucina ad esempio, i saponi e i detergenti che abbiamo in bagno, per non parlare delle piante che abbiamo in casa.
Concetto un po’ diverso sono le Ontologie. A farla breve le ontologie sono le caratteristiche di un dato. Una serie di ontologie che conosciamo bene sono quelle che chiediamo ai commessi di un negozio di abbigliamento.
Quando chiediamo una maglietta rossa a maniche lunghe di taglia M stiamo elencando le ontologie dell’abbigliamento che vogliamo acquistare: il tipo (maglietta), il sottotipo (a maniche lunghe), il colore (rosso) e la taglia (M).
Strumenti per la catalogazione
Ovviamente più un dato ha informazioni complesse più la catalogazione diventa una operazione titanica. Però ci sono software e piattaforme che aiutano a gestire la fase di catalogazione.
Visto che stiamo parlando di catalogazione cerchiamo di catalogare questi software o sistemi.
I contenitori di dati: sono quelli che chiamiamo database, che possono essere di diversi tipi e con diverse caratteristiche. I più “famosi” sono MySQL, Oracle o MongoDB.
I datawarehouse: sono sistemi che permettono di analizzare e operare sui dati che hanno forme e strutture diverse. Di solito li trovate indicati come Data Lake e si occupano di manipolare e integrare grandissime quantità di dati da contenitori diversi.
I sistemi di cataloging: sono sistemi che facilitano la gestione dei metadati, permettendo di aggiungere, dividere, selezionare e modificare i metadati associati ai dati grezzi.
Saper sfruttare i cataloghi: come usare il proprio catalogo
Un’esperienza diretta con una grande azienda mi permette di di mostrare come creare e gestire il proprio catalogo di dati, così ci facciamo un’idea più realistica del perché c’è tanta attenzione sul business dei dati e del perché c’è tanto impegno nella gestione di questi dati.
Una grande società di recensioni ci ha chiesto una breve consulenza su nuovi modi di sfruttare i loro dati. I dati sono persone che recensiscono hotel, ristoranti, bar nei viaggi che fanno, sia di lavoro che di piacere, sia in famiglia che in coppia o da soli.
Come creare un catalogo efficace?
Chiariamo subito che non è possibile fare un solo catalogo che va bene per ogni esigenza. Un buon catalogo è quello che permette di risolvere le necessità.
Un catalogo può essere utilizzato dai Data Analyst, da professionisti del Machine Learning, da ricercatori scientifici, da enti pubblici ed ovviamente per aumentare o diversificare il business.
Utilizzi del catalogo
Un catalogo, in sintesi, si usa principalmente per fare ricerca, analisi e condivisione dei dati.
Nel nostro caso ci avevano dato un elenco di utenti, sembra poco ma era sufficiente per andare a vedere sul servizio di recensioni quello che avevano recensito.
Il catalogo che ci serviva quindi era un elenco dei luoghi che aveva visitato ognuno degli utenti, con le informazioni di ogni luogo, ricordate le tassonomie e le ontologie?
Abbiamo così catalogato le persone per tipologia di viaggio, l’indicazione di spesa e tutto quanto ci era utile per catalogare questo insieme di utenti per abitudini.
Con queste informazioni si possono creare messaggi promozionali dedicati, grazie a queste analisi si riesce a capire chi preferisce volare con compagnie aeree low cost o con altre compagnie aeree, chi preferisce visitare luoghi culturali, chi è più propenso a fare assicurazioni di viaggio.
Senza contare che il risultato delle analisi può aprire ad altre tipologie di business.
Integrazione con l’AI
Per fare un esempio concreto una delle cose più interessanti che si possono fare con i cataloghi è possibile è usarlo come fonte per il machine learning.
Con un catalogo ad hoc si può identificare l’utente per somiglianza, creare dei filtri di tipo collaborativo, ossia quei filtri che propongono dati o operazioni che già sappiamo funzionare con utenti di quella classe.
Se il nostro catalogo è ben definito si possono usare tutte le principali tecniche e strategie di Intelligenza Artificiale. Nel prossimo paragrafo parleremo proprio di questo.
AI + dati = servizi: come l’integrazione tra AI e i dati permette nuovi modelli e ottimizzazioni
Come l’AI trasforma i dati in valore?
Le principali tecniche di IA e Machine Learning riescono ad derivare caratteristiche importanti da dei cataloghi dei dati creati appositamente.
I dati diventano l’ingrediente principale per capire cosa accade, prevedere cosa accadrà o per creare nuove informazioni importanti.
A seconda delle strategie e degli algoritmi si possono ricavare informazioni fondamentali per creare nuove funzionalità o nuove operazioni. Informazioni che a ricavarle manualmente richiederebbe un grande numero di esperti e una grande quantità di tempo.
Nuove opportunità di business
In questi anni stiamo vedendo servizi innovativi basati sui dati e sull’IA. Da quella analitica a quella generativa abbiamo visto creare nuovi servizi, nuovi materiali, addirittura nuove metodologie di diagnosi.
Se prendiamo ad esempio i sistemi a guida autonoma il grande lavoro che stanno facendo è proprio sulla collezione di dati.
L’anno scorso, ad esempio, una auto a guida autonoma Wymo non ha riconosciuto la cartellonistica stradale, e si è fatta un bel pezzo di strada contromano.
Noi non ci facciamo caso, ma siamo in grado di capire gli oggetti anche se non sono illuminati bene o se non sono perfettamente visibili, cosa che è ancora difficile per una automobile, a meno che non cambino tutti i cartelli in modo da essere interpretabili anche dalle auto automatiche.
Sfide etiche
Se avete letto la notizia dell’auto avrete visto che c’è un problema etico importante.
A chi fare la multa dell’infrazione fatta dall’auto automatica? Al proprietario dell’auto? Alla società che le costruisce? Al comune che non ha piazzato bene i segnali?
I problemi etici e sociali, lo vediamo in ogni news dei quotidiani e siti generalisti, vengono evidenziati come pericoli ogni volta che succede un guaio simile.
Un atteggiamento comprensibile se pensiamo a oggi e non al passato.
La raccolta dei dati, come abbiamo visto nell’articolo sul Tracciamento Online, è una attività che va fatta in maniera responsabile, sia per chi li raccoglie che per chi li usa.
L’IA è agli albori, anche la bibliografia tecnica spesso non tratta gli stessi concetti allo stesso modo, e se confrontiamo l’evoluzione di questa tecnologia con quelle del passato lo si capisce meglio.
Le automobili di oggi sono molto diverse di quelle di 15 anni fa, sia in termini di prestazioni, di accessori e optional ma soprattutto di sicurezza, e se la confrontiamo con la storia delle automobili che ha più di 100 anni è ancora più evidente.
Ecco noi nel 2025 facciamo solo 6 anni di sviluppo dell’attuale tecnologia dell’Intelligenza Artificiale, bisogna stare attenti a non sbagliare così come i nostri avi lo erano quando progettavano le prime automobili, ma le potenzialità sono talmente grandi che bisogna vedere questi errori come problemi da risolvere, e non come un pericolo per tutti.
Il futuro dell’AI e del business dei dati
Il futuro del business dei dati e dell’IA vanno a braccetto. L’inventiva umana è alta e ogni volta che c’è un problema o una esigenza migliaia di programmatori si adoperano per risolverla.
Questo significa che ci sarà sempre bisogno di dati per alimentare modelli di IA e sistemi di Machine Learning, e che presto il mondo dell’IA e dei dati dovranno accordarsi ad avere un qualche standard. Ma per avere questo dovremo aspettare la naturale evoluzione di questa tecnologia.
Lo stato attuale del business dei dati
Spero di aver dato un’idea semplice e completa di quanto è ampio il mondo del business dei dati, ma soprattutto quanti aspetti coinvolge in tantissimi campi e momenti della vita quotidiana.
Impatto del business dei dati sulla società
Se girate per i marketplace, anche per pura curiosità, vi renderete conto abbastanza facilmente di che impatto sta avendo questo business, e di come si evolverà seguendo le regole di mercato.
Indubbiamente il futuro sarà quello di avere un mondo sempre più catalogato e organizzato, permettendo di avere facile accesso a servizi sempre più personalizzati.
Non dobbiamo pensare solo al marketing o ai servizi di personalizzazione, i dati sono importanti anche per migliorare la società e i servizi quotidiani.
Dall’ottimizzazione dei trasporti pubblici o, come ha fatto l’Estonia dal 1997 o la città di Birmingham, di offrire i servizi pubblici direttamente dallo smartphone.
Il consiglio quindi è che se avete dati, app o siti web con dati che si incrementano nel tempo, beh, organizzatevi per collezionarli, c’è sempre qualcuno che ne può aver bisogno.
Francesco Contini, Data & Search Engine Expert, Founder Rubedo Data Solutions
Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale: iscriviti alla nostra newsletter gratuita e accedi ai contenuti esclusivi di Rivista.AI direttamente nella tua casella di posta!