Es. 3 del 24/04

3.1 Per calcolare la media condizionata di Y rispetto alla modalità =2 di X, utilizziamo la seguente formula, osservando che in questo caso i=2:

3.2 Il carattere X si dice statisticamente indipendente da Y se, qualunque sia la modalità con cui si manifesta il carattere Y, la distribuzione relativa condizionata di X rimane sempre la stessa, cioè i profili colonna della tabella a doppia entrata sono tutti uguali fra loro. Si dimostra poi che se X è indipendente da Y allora vale anche il viceversa.

Calcoliamo dunque i profili colonna della tabella a doppia entrata:

Evidentemente i profili colonna non sono tutti uguali fra loro. Si può dunque affermare che i due caratteri considerati non sono statisticamente indipendenti.

Si osservi inoltre che un'ulteriore conferma viene data dal calcolo delle frequenze teoriche di indipendenza, definite da che nel caso di indipendenza statistica devono coincidere con quelle empiriche . Per esempio si ha infatti:

Infine, sarebbe stato possibile trarre le precedenti conclusioni anche solo osservando la disposizione degli zeri nella tabella a doppia entrata; essa non avrebbe certo portato a profili riga o colonna tutti uguali tra loro.

3.3 L'indice di determinazione è definito come il quadrato del coefficiente di correlazione lineare. Quest'ultimo è definito come:

Per calcolare la covarianza possiamo utilizzare la formula:

Utilizzando le distribuzioni marginali, calcoliamo dunque le medie aritmetiche necessarie:

Si otterrà:

Calcoliamo quindi le deviazione standard dei due caratteri X e Y.

Da cui seguono:

In conclusione risulterà:

Questo risultato ci comunica che i due caratteri sono positivamente correlati.

L'indice di determinazione varrà dunque

Si ricordi che la varianza totale può essere scritta come somma della varianza spiegata e della varianza residua e che l'indice di determinazione è una misura relativa della riduzione della variabilità di Y, ottenuta proprio rapportando la varianza spiegata su quella totale.

Questo dato ci indica che la retta di regressione che è possibile ottenere sarà in grado di spiegare solo il 12% della variabilità totale, mentre rimane un 88% della variabilità totale (che corrisponde appunto alla variabilità residua) che il modello di regressione lineare semplice non spiega.