8. Regressione lineare semplice
     
  Nell'analisi dei caratteri quantitativi si può cercare di individuare una funzione che descriva in modo sintetico le caratteristiche del legame che li unisce.
  Definizione 40. Si definisce modello di regressione lineare semplice l'espressione:  
  (17)
  in cui Y è la variabile dipendente, f è una generica funzione della variabile indipendente X, indica l'insieme dei parametri utilizzati ed rappresenta l'insieme degli effetti che altre variabili, non considerate nell'analisi, hanno sulla Y.
Si possono utilizzare innumerevoli tipi di funzioni; una prima distinzione può essere fatta suddividendo le funzioni in lineari e non lineari nei parametri. Una funzione lineare nei parametri può essere scritta nel seguente modo:
  (18)
  di cui il polinomio di grado h del tipo: è un caso particolare.
Si parla di relazione esatta tra le due variabili X e Y se la relazione si può esprimere come Y=, senza includere il termine . Al contrario, in una relazione statistica il valore della variabile dipendente Y non è mai univocamente determinato dal valore assunto dalla variabile indipendente X.
  Osservazione 5. Il problema che si pone è quello dell'individuazione della più adatta a descrivere la relazione tra le due variabili, ossia della funzione che rappresenti al meglio la nuvola dei punti osservati, data dal grafico di dispersione. Tale funzione dovrà fornire i valori teorici più "vicini" ai valori osservati della variabile Y. Questa "vicinanza" viene definita in termini geometrici, per questo a volte si preferisce parlare di interpolazione piuttosto che di regressione.
  Nel seguito la funzione che verrà assunta come riferimento sarà un polinomio di primo grado: f(X)=a+bX, espressione che individua una famiglia di rette. Inoltre indicheremo con i valori dei caratteri X e Y osservati sulla generica i-esima unità del collettivo, detti anche valori empirici, e con i corrispondenti punti della retta. I valori vengono detti valori teorici del carattere Y.