10. Varianza spiegata e varianza residua |
|
|
|
|
Attraverso i coefficienti di regressione è possibile introdurre un nuovo
indice che consente di spiegare ulteriormente il legame fra i due caratteri X e Y. E'
opportuno premettere la seguente |
|
Proposizione 43. I coefficienti di regressione verificano le seguenti proprietà:
1. e sono legati dalla relazione: Da ciò segue che se
allora =.
2. e hanno sempre lo stesso segno, che è quello della covarianza.
Così, se le due rette di regressione sono entrambe crescenti, se
sono entrambe descescenti oppure se sono orizzontali
rispetto al proprio asse. In quest'ultimo caso le due rette sono tra loro
perpendicolari e questo in coerenza con la Proposizione 28.
3. Il prodotto tra i due coefficienti di regressione è uguale al quadrato del
coefficiente di correlazione: |
|
Definizione 44. Si definisce indice di determinazione il quadrato del
coefficiente di correlazione . |
|
Proposizione 45. Per l'indice di determinazione vale la seguente rappresentazione |
|
|
(26) |
Inoltre, poiché , la (26) può essere riscritta come |
|
|
|
(27) |
|
Dimostrazione. |
|
|
Proposizione 46. La varianza totale può essere scritta come somma
di due componenti: |
|
|
|
(29) |
|
Dimostrazione. |
|
|
Osservazione 8. In riferimento alla Proposizione 46 la varianza totale è
la media delle distanze al quadrato tra i punti osservati e i punti sulla
retta parallela all'asse delle ascisse . Essa risulta essere somma di due
termini, la varianza spiegata e la varianza residua. La varianza spiegata o
varianza di regressione è la varianza spiegata dalla retta di regressione
ed è la media della distanze al quadrato tra i valori e la retta costante
. Infine, la varianza residua è una media delle distanze al quadrato
tra i punti osservati e quelli della retta di regressione .
Dunque la varianza totale riflette la variabilità dei valori della Y quando
non viene utilizzata l'informazione data dai valori della X; al contrario, la
varianza residua esprime ciò che rimane della variabilità della Y dopo aver utilizzato le informazioni della X mediante il modello di regressione
lineare semplice. Infine, la varianza spiegata esprime
la riduzione della variabilità totale della Y associata all'uso della X nella
previsione della Y.
|
|
Possiamo riassumere queste osservazioni nella seguente |
|
|
Proposizione 47. L'indice di determinazione è una misura relativa della
riduzione della variabilità di Y, ottenuta rapportando la varianza spiegata su
quella totale (come visto nella Proposizione 45):
|
|
|
(30) |
|
Osservazione 9. Dalla (30) si ha che
Assume il valore 1 quando la relazione statistica è perfetta, cioè quando tutti i valori osservati di Y appartengono alla retta di regressione cosicché tutti gli scostamenti sono nulli. Da ciò segue che la varianza residua è nulla e che , dunque
Il caso opposto avviene quando la relazione individuata dalla retta di regressione non è di alcun aiuto alla riduzione della variabilità totale. Quindi la
variabilità residua coincide con quella totale e così In questo caso
la nuvola dei punti del grafico di dispersione non individua alcuna relazione
lineare tra i due caratteri.
Generalmente nei casi reali e quanto più è vicino a 1, tanto
maggiore è il grado di relazione lineare presentato dalle osservazioni e quindi
tanto più la retta di regressione "spiega" la variabilità totale. |
|
Esempio 48. |
|
|
|
|
|
|
|
|
|
|