Il Machine Learning ha grandi similitudini con l’ottimizzazione matematica, che fornisce metodi, teorie e domini di applicazione. 

L’apprendimento automatico viene formulato come “problemi di minimizzazione” di una funzione di perdita (loss function) nei confronti di un determinato set di esempi (training set). Questa funzione esprime la discrepanza tra i valori predetti dal modello in fase di training e i valori attesi per ciascuna istanza di esempio. 

L’obiettivo finale è quello di insegnare al modello la capacità di predire correttamente su un insieme di istanze non presenti nel training set.

Un metodo secondo il quale è possibile distinguere diverse categorie di algoritmo è il tipo di output atteso da un certo sistema di machine learning. 

Tra le principali categorie troviamo:

- La classificazione: gli input sono divisi in due o più classi e il sistema di apprendimento deve produrre un modello in grado di assegnare ad un input una o più classi tra quelle disponibili.Questi tipi di task sono tipicamente affrontati mediante tecniche di apprendimento supervisionato. 
Un esempio di classificazione è l’assegnamento di una o più etichette ad una immagine in base agli oggetti o soggetti contenuti in essa;

- La regressione: concettualmente simile alla classificazione con la differenza che l’output ha un dominio continuo e non discreto.E’ tipicamente gestita con l’apprendimento supervisionato. 
Un esempio di regressione è rappresentato dalla stima della profondità di una scena a partire dalla sua rappresentazione sotto forma di immagine a colori. 
Infatti, il dominio dell’output in questione è virtualmente infinito, e non limitato ad un certo insieme discreto di possibilità;

- Il clustering: dove un insieme di dati viene diviso in gruppi che però, a differenza della classificazione, non sono noti a priori.La natura stessa dei problemi appartenenti a questa categoria li rende tipicamente dei task di apprendimento non supervisionato.

Modello di regressione lineare semplice

La regressione lineare è un modello molto diffuso utilizzato per stimare valori reali come:

- costo delle case,

- numero di chiamate,

- vendite totali per persona,

e segue il criterio delle variabili continue:

- metri quadri,

- sottoscrizione di un conto corrente,

- educazione della persona

Nella regressione lineare si segue una relazione tra variabili indipendenti e variabili dipendenti attraverso una linea che di solito, rappresenta la relazione tra le due variabili.

La linea di adattamento è nota come linea di regressione e viene rappresentata da un’equazione lineare del tipo Y = a * X + b.

La formula si basa sull'interpolazione dei dati per associare tra loro due o più caratteristiche. Quando si fornisce all'algoritmo una caratteristica in input, la regressione restituisce l'altra caratteristica.

Modello di regressione lineare multipla

Quando abbiamo più di una variabile indipendente, allora parliamo di regressione lineare multipla, assumendo un modello come il seguente:

y = b0 + b1x1 + b2x2 + … + bnxn

- y è la risposta ai valori, ossia rappresenta il risultato previsto dal modello;

- b0 è l’intercetta, ossia il valore di y quando gli xi sono tutti uguali a 0;

- la prima caratteristica b1 è il coefficiente di x1;

- l'ennesima caratteristica bn è il coefficiente di xn;

- x1,x2, …, xn sono le variabili indipendenti del modello.

Praticamente l’equazione spiega la relazione tra una variabile dipendente continua (y) e due o più variabili indipendenti (x1, x2, x3 …). 

Ad esempio se volessimo stimare l’emissione di CO2 di un’automobile (variabile dipendente y) considerando la potenza del motore, il numero dei cilindri e il consumo di carburante. Questi ultimi fattori sono le variabili indipendenti x1, x2 e x3. Le costanti bi sono numeri reali e vengono chiamati coefficienti di regressione stimati del modello.La y è la variabile dipendente continua, cioè essendo la somma di b0, b1 x1, b2 x2, ecc. y sarà un numero reale.

L’analisi di regressione multipla è un metodo usato per identificare l’effetto che le variabili indipendenti hanno su una variabile dipendente.

Capire come cambia la variabile dipendente al variare delle variabili indipendenti permette di prevedere effetti o impatti dei cambiamenti delle situazioni reali.

Utilizzando la regressione lineare multipla si può capire come cambia la pressione sanguigna al variare dell’indice di massa corporea considerando fattori come età, sesso ecc---, ipotizzando quindi cosa potrebbe accadere.

Con la regressione multipla possiamo ottenere stime su trend di prezzi, come ad esempio l’andamento futuro per petrolio o dell’oro.

Infine, la regressione lineare multipla sta riscontrando maggiore interesse nel campo del machine learning e intelligenza artificiale in quanto permette di ottenere modelli di apprendimento performanti anche nel caso di elevato numero di record da analizzare.

Modello di Regressione Logistica

La regressione logistica è uno strumento statistico che ha come obiettivo quello di modellare un risultato binomiale con una o più variabili esplicative.

Viene utilizzata in genere per problemi binari, dove esistono solamente due classi, ad esempio Si o No, 0 o 1, maschio o femmina ecc...

In questo modo è possibile descrivere i dati e spiegare la relazione tra una variabile binaria dipendente e una o più variabili indipendenti nominali o ordinali..

Il risultato è determinato grazie all’utilizzo di una funzione logistica, che stima una probabilità e poi definisce la classe più vicina (positiva o negativa) al valore di probabilità ottenuto.

Possiamo considerare la regressione logistica come un metodo di classificazione della famiglia degli algoritmi di apprendimento supervisionato.

Avvalendosi di metodi statistici, la regressione logistica permette di generare un risultato che, di fatto, rappresenta una probabilità che un dato valore di ingresso appartenga a una determinata classe.

Nei problemi di regressione logistica binomiale, la probabilità che l’output appartenga ad una classe sarà P, mentre che appartenga all’altra classe 1-P (dove P è un numero compreso tra 0 e 1 perché esprime una probabilità).

La regressione logistica binomiale lavora bene in tutti quei casi in cui la variabile che stiamo cercando di predire è binaria, cioè può assumere solamente due valori: il valore 1 che rappresenta la classe positiva, o il valore 0 che rappresenta la classe negativa.

Esempi di problemi che si possono risolvere tramite regressione logistica sono:

- una e-mail è di spam oppure no;

- una acquisto online è fraudolento o meno, valutandone le condizioni di acquisto;

- un paziente ha una frattura, valutandone i raggi.

Con la regressione logistica possiamo fare analisi predittiva, misurando la relazione tra ciò che vogliamo prevedere (variabile dipendente) e una o più variabili indipendenti, cioè le caratteristiche. La stima delle probabilità avviene tramite una funzione logistica.

Le probabilità vengono successivamente trasformate in valori binari, e per poter rendere reale la previsione, si assegna tale risultato alla classe di appartenenza, in base alla vicinanza o meno alla classe stessa.

Ad esempio, se l’applicazione della funzione logistica ci restituisce 0,85,allora vuol dire che l’input ha generato una classe positiva assegnando alla classe 1. Viceversa se avesse ottenuto valore come 0,4 o più in generale

- e : base dei logaritmi naturali (il numero di Eulero, oppure funzione exp() di excel)

- b0 + b1 * x : è il valore numerico effettivo che si desidera trasformare.
Ercole Palmeri
#classificazione #clustering #intelligenzaartificiale #MachineLearning #python #regressionelineare
https://bloginnovazione.it/machine-learning-algoritmi/3716/

Commenti

Post popolari in questo blog

Esercizi Java per corso di formazione Java Base

Forescout si unisce a MISA e annuncia l'integrazione con Microsoft Sentinel per fornire servizi automatizzati di gestione delle minacce informatiche su tutte le infrastrutture aziendali