10. Varianza spiegata e varianza residua
     
  Attraverso i coefficienti di regressione è possibile introdurre un nuovo indice che consente di spiegare ulteriormente il legame fra i due caratteri X e Y. E' opportuno premettere la seguente
 

Proposizione 43. I coefficienti di regressione verificano le seguenti proprietà:

1. e sono legati dalla relazione: Da ciò segue che se allora =.

2. e hanno sempre lo stesso segno, che è quello della covarianza. Così, se le due rette di regressione sono entrambe crescenti, se sono entrambe descescenti oppure se sono orizzontali rispetto al proprio asse. In quest'ultimo caso le due rette sono tra loro perpendicolari e questo in coerenza con la Proposizione 28.

3. Il prodotto tra i due coefficienti di regressione è uguale al quadrato del coefficiente di correlazione:

  Definizione 44. Si definisce indice di determinazione il quadrato del coefficiente di correlazione .
  Proposizione 45. Per l'indice di determinazione vale la seguente rappresentazione  
(26)
Inoltre, poiché , la (26) può essere riscritta come  
  (27)
  Dimostrazione.  
  Proposizione 46. La varianza totale può essere scritta come somma di due componenti:  
  (29)
  Dimostrazione.  
 

Osservazione 8. In riferimento alla Proposizione 46 la varianza totale è la media delle distanze al quadrato tra i punti osservati e i punti sulla retta parallela all'asse delle ascisse . Essa risulta essere somma di due termini, la varianza spiegata e la varianza residua. La varianza spiegata o varianza di regressione è la varianza spiegata dalla retta di regressione ed è la media della distanze al quadrato tra i valori e la retta costante . Infine, la varianza residua è una media delle distanze al quadrato tra i punti osservati e quelli della retta di regressione .
Dunque la varianza totale riflette la variabilità dei valori della Y quando non viene utilizzata l'informazione data dai valori della X; al contrario, la varianza residua esprime ciò che rimane della variabilità della Y dopo aver utilizzato le informazioni della X mediante il modello di regressione lineare semplice. Infine, la varianza spiegata esprime la riduzione della variabilità totale della Y associata all'uso della X nella previsione della Y.

  Possiamo riassumere queste osservazioni nella seguente  
 

Proposizione 47. L'indice di determinazione è una misura relativa della riduzione della variabilità di Y, ottenuta rapportando la varianza spiegata su quella totale (come visto nella Proposizione 45):

  (30)
  Osservazione 9. Dalla (30) si ha che Assume il valore 1 quando la relazione statistica è perfetta, cioè quando tutti i valori osservati di Y appartengono alla retta di regressione cosicché tutti gli scostamenti sono nulli. Da ciò segue che la varianza residua è nulla e che , dunque
Il caso opposto avviene quando la relazione individuata dalla retta di regressione non è di alcun aiuto alla riduzione della variabilità totale. Quindi la variabilità residua coincide con quella totale e così In questo caso la nuvola dei punti del grafico di dispersione non individua alcuna relazione lineare tra i due caratteri.
Generalmente nei casi reali e quanto più è vicino a 1, tanto maggiore è il grado di relazione lineare presentato dalle osservazioni e quindi tanto più la retta di regressione "spiega" la variabilità totale.
  Esempio 48.