Regressione Logistica: prevedere probabilità e classificazioni

Se la regressione lineare è utile per prevedere valori numerici, la Regressione Logistica viene usata per stimare probabilità e per classificare dati in categorie.
Risponde a domande tipo: ho un e-commerce se prendo i dati di pubblicità, i dati di permanenza sul sito, i dati sui clic e i dati sulle vendite che probabilità c’è che un utente compri un prodotto simile a quello di riferimento?

Come funziona la regressione logistica?

La regressione logistica è particolarmente utile quando l’output non è un numero, ma alla fine può assumere solo due valori (sì/no, vero/falso, acquista/non acquista).

Ma abbiamo detto che stima la probabilità, mi aspetto che dica “acquista al 60%”!
Fa proprio quello, ma “acquista al 60%” può avere diversi significati, può significare che ogni 100 utenti quelli che acquistano sono 60, oppure paga solo il 60% del prodotto!
Io voglio sapere se acquista o non acquista il prodotto!

A differenza della regressione lineare che restituisce un valore, la regressione logistica usa una funzione per sintetizzare l’azione, e dato che i matematici si sentono superiori hanno chiamato questa funzione sigmoide, che è un nome che nessuno si ricorderà mai, a meno di essere un matematico.
La sigmoide trasforma i valori in un numero reale tra 0 e 1, e se riesco a scriverla è questa:

P(Y)=       1
      ------------
       1+e−(mX+b)

Dove:

  • P(Y) è la probabilità che un evento si verifichi.
  • e è il numero di Eulero (≈ 2.718).
  • mX + b è quello che abbiamo visto sopra, ossia la combinazione lineare delle variabili indipendenti.

Tutta questa manfina ci restutisce un valore tra 0 e 1, che è una probabilità, quindi possiamo stabilire una soglia di decisione:

  • Se P(Y) > 0.5, allora il modello prevede 1 (es. il cliente comprerà il prodotto).
  • Se P(Y) < 0.5, allora il modello prevede 0 (es. il cliente non comprerà il prodotto).

Pro
Ottima per previsioni binarie (es. compra/non compra, fraudolento/non fraudolento).
Semplice e facile da implementare.

Contro
Funziona solo per problemi con due categorie
Non rileva relazioni complesse tra variabili come fanno i modelli di Deep Learning.

Alberi decisionali e Random Forest: come l’IA predice il futuro con scelte intelligenti

Finita la parte matematica! Andiamo a vedere ora 2 modelli tra i più utilizzati nell’IA che predice il futuro!
Quando vogliamo prendere decisioni basate sui dati, uno degli approcci più potenti e intuitivi è l’uso degli Alberi Decisionali e del metodo Random Forest. Questi algoritmi vengono utilizzati per risolvere problemi di classificazione e regressione (abbiamo capito cosa sono le regressioni vero?), aiutando aziende e organizzazioni a prevedere risultati futuri con grande precisione.

Grazie a questi strumenti, l’IA predice il futuro analizzando dati storici e individuando i fattori più rilevanti per una decisione. Questo è particolarmente utile in settori come il marketing, la finanza, la sanità e alla sicurezza informatica.

Vediamo nel dettaglio come funzionano.

Alberi decisionali: prendere decisioni come un esperto

Quante volte ci è capitato di pensare: “se faccio questo, questo e quest’altro che succederà?”, ecco l’albero decisionale può aiutarti a rispondere, se le domande sono compatibili alle regole dell’albero.
Un Albero Decisionale è una struttura gerarchica che simula il processo di decisione di un essere umano. Ogni nodo dell’albero rappresenta una domanda (o condizione), e i rami portano a possibili risposte fino ad arrivare a una previsione finale.

Come funziona un albero decisionale?

L’algoritmo segue questi passaggi:

  1. Seleziona la variabile più importante: Analizza i dati per individuare il fattore più rilevante che influisce sulla decisione.
  2. Divide i dati in 2 o più sottoinsiemi: Crea dei “rami” separando i dati in base alla risposta alla prima domanda.
  3. Ripete il processo per ogni nuovo ramo: Ogni sottoinsieme viene ulteriormente diviso con nuove condizioni fino a ottenere una decisione finale.

Facciamo un esempio
Visto che sono particolarmente originale, immaginiamo di voler prevedere se un cliente acquisterà un prodotto online. Un albero decisionale potrebbe funzionare così:

  • Ha visitato il sito più di 3 volte?
    • Sì → Ha aggiunto prodotti al carrello?
      • Sì → Probabilità alta di acquisto
      • No → Probabilità bassa di acquisto
    • No → Ha cliccato su una pubblicità?
      • Sì → Probabilità media di acquisto
      • No → Probabilità bassa di acquisto

Forse l’esempio è banale, però spiega bene come funziona.
Grazie a questa struttura ad albero l’IA predice il futuro analizzando il comportamento degli utenti e identificando schemi che aiutano a prendere decisioni più informate.

So che state pensando, l’ho pensato anche io quando l’ho studiato: “E c’è bisogno dell’intelligenza artificiale per sapere che se un utente ha messo un prodotto nel carrello c’è una alta possibilità di acquisto?”

La differenza è che l’albero lo crea da solo, partendo dai dati.
Io non mi ci vedo a passare settimane ad analizzarmi megabyte e megabyte di log per mettere 4 “if” nel codice.

Pro
Facili da interpretare: la logica dell’albero è chiara anche per chi non ha competenze avanzate in AI.
Versatili: funzionano sia per problemi di classificazione (es. acquisto o no) che di regressione (es. prevedere un valore numerico).

Contro
Sensibili ai dati di training: se i dati non sono ben bilanciati, l’albero potrebbe creare regole troppo specifiche e meno generalizzabili.
Rischio di overfitting: un albero troppo profondo può adattarsi eccessivamente ai dati di partenza, perdendo la capacità di fare buone previsioni su nuovi dati.

Per risolvere questi problemi, entra in gioco un metodo più avanzato: Random Forest.