Covarianza (probabilità)

Revision as of 09:38, 18 October 2023 by 150.217.8.137 (talk) (Definizione: è presente un solo prodotto nella formula)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Template:NN In statistica e in teoria della probabilità, la covarianza di due variabili statistiche o variabili aleatorie è un valore numerico che fornisce una misura di quanto le due varino assieme.

Probabilità

Definizione

La covarianza di due variabili aleatorie <math>X</math> e <math>Y</math> è il valore atteso del prodotto delle loro distanze dalla media:

<math>\mathrm{Cov}(X,Y)=\mathbb{E}\Big[\big(X-\mathbb{E}[X]\big)(Y-\mathbb{E}[Y]\big)\Big].</math>

La covarianza di <math>X</math> e <math>Y</math> può anche essere espressa come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro valori attesi:

<math>\mathrm{Cov}(X,Y)=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y].</math>

Infatti per la linearità del valore atteso risulta

<math>\mathbb{E}\Big[XY-X\mathbb{E}[Y]-\mathbb{E}[X]Y+\mathbb{E}[X]\mathbb{E}[Y]\Big]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]-\mathbb{E}[X]\mathbb{E}[Y]+\mathbb{E}[X]\mathbb{E}[Y]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]. </math>

Proprietà

La covarianza rispetta le seguenti proprietà, per variabili aleatorie <math>X</math>, <math>Y</math> e <math>Z</math>, e costanti <math>a</math> e <math>b</math>:

  • <math>\text{Cov}(X,Y)=\text{Cov}(Y,X)\ </math>
  • <math>\text{Cov}(aX+b,Y)=a\text{Cov}(X,Y)\ </math>
  • <math>\text{Cov}(X+Y,Z)=\text{Cov}(X,Z)+\text{Cov}(Y,Z)\ </math>

Due variabili aleatorie indipendenti hanno covarianza nulla, poiché dalla loro indipendenza segue

<math>\mathbb{E}[XY]=\mathbb{E}[X]\mathbb{E}[Y].</math>

Due variabili aleatorie che hanno covarianza nulla sono incorrelate.

Due variabili aleatorie dipendenti possono essere incorrelate. Ad esempio, se <math>X</math> è una variabile aleatoria di legge uniforme sull'intervallo <math>[-1,1]</math> e <math>Y=X^2</math>, allora

<math>\textstyle \text{Cov}(X,Y)=\text{Cov}(X,X^2)=\mathbb{E}[X^3]-\mathbb{E}[X]\mathbb{E}[X^2]=0-0 \mathbb{E}[X^2]=0.</math>

Varianza

La covarianza può essere considerata una generalizzazione della varianza

<math>\text{Var}(X)=\text{Cov}(X,X)\ </math>

e compare come termine di correzione nella relazione

<math>\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)+2\text{Cov}(X,Y).</math>

Più in generale, per variabili aleatorie <math>X_1,\ldots,X_n</math> e <math>Y_1,\ldots,Y_m</math> vale

<math>\textstyle \text{Var}(\sum_iX_i)=\text{Cov}(\sum_iX_i,\sum_jX_j)=\sum_{i,j}\text{Cov}(X_i,X_j)=\sum_i\text{Var}(X_i)+2\sum_{i>j}\text{Cov}(X_i,X_j),</math>

come caso particolare di

<math>\textstyle \text{Cov}\left(\sum_i X_i, \sum_j Y_j\right)=\sum_{i,j}\text{Cov}(X_i,Y_j).</math>

Statistica

In statistica la covarianza di due variabili statistiche <math> X</math> e <math>Y</math>, indicata come <math>\textstyle \sigma_{X,Y}=\text{Cov}(X,Y)</math>, è un indice di variabilità congiunta.

Su una popolazione di <math>N</math> osservazioni congiunte <math>(x_i,y_i)</math>, di rispettive medie <math>\bar{x}</math> e <math>\bar{y}</math>, la covarianza osservata è

<math>\sigma_{X,Y}=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})=\frac{1}{N}\sum_{i=1}^N x_iy_i-\left(\frac{1}{N}\sum_{i=1}^N x_i\right)\left(\frac{1}{N}\sum_{i=1}^N y_i\right).</math>

Uno stimatore della covarianza di <math>n</math> osservazioni congiunte <math>(x_i,y_i)</math> può essere ottenuto correggendo la formula della covarianza, dividendo per il numero di gradi di libertà. In questo caso il numero di gradi di libertà è dato dal numero delle osservazioni, <math>n</math>, a cui va sottratto il numero di stimatori utilizzati nel computo della covarianza. Nella covarianza entrano le medie campionarie delle <math>x_i, y_i</math>, e si può dimostrare che il computo di queste medie corrisponde alla sottrazione di 1 solo grado di libertà (non due, come ci si potrebbe aspettare). Perciò lo stimatore della covarianza è dato da

<math>s_{X,Y}=\frac{\sum_{i=1}^n x_i y_i}{n-1}-\frac{\sum_{i=1}^n x_i}{n-1}\frac{\sum_{i=1}^n y_i}{n}.</math>

Lo stimatore della covarianza è anche detto covarianza campionaria.

La varianza e la covarianza intervengono per definire l'indice di correlazione di Bravais-Pearson

<math>\rho_{X,Y}=\frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_j(x_j-\bar{x})^2 \sum_k(y_k-\bar{y})^2}} =\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}.</math>

La covarianza è limitata dalla disuguaglianza di Cauchy-Schwarz, infatti siano <math>U = (x_1-\bar{x},\ldots, x_n-\bar{x})</math> e <math>V = (y_1-\bar{y},\ldots, y_n-\bar{y})</math> i vettori degli scarti degli <math>x_i</math> e <math>y_i</math> rispetto alle relative medie, si può applicare la diseguaglianza ottenendo

<math>|\langle U,V\rangle| \le \sqrt{\langle U,U\rangle\langle V,V\rangle}</math>

che equivale a scrivere

<math>\left|\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})\right| \leq \sqrt{\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2}.</math>

Moltiplicando per Un fattore <math>1/n</math> entrambi i lati si ottiene la relazione

<math>|\sigma_{X,Y}|\leq \sigma_X\sigma_Y,</math>

dove <math>\sigma_X</math> e <math>\sigma_Y</math> sono le deviazioni standard per le due variabili.

Nel caso in cui <math>z = f(x,y)</math> possiamo dire che la covarianza è limitata nell'intervallo

<math>|\sigma_{Z}| \leq |\partial_x f(x,y)|\sigma_X + |\partial_y f(x,y)|\sigma_Y.</math>

Infatti, l'espressione generale per la deviazione standard di <math>z</math> è

<math>\sigma_Z = \sqrt{|\partial_x f(x,y)|^2\sigma_X^2 + |\partial_y f(x,y)|^2\sigma_Y^2 + 2|\partial_x f(x,y)||\partial_y f(x,y)|\sigma_{X,Y}}.</math>

Il valore massimo (minimo), per monotonia delle funzioni, sarà ottenuto in corrispondenza di <math>\sigma_{X,Y} = \sigma_X\sigma_Y</math> (<math>\sigma_{X,Y} =- \sigma_X\sigma_Y</math>), quindi il valore corrispondente di <math>\sigma_{Z}</math> massimo sarà

<math>\sigma_Z = \sqrt{|\partial_x f(x,y)|^2\sigma_X^2 + |\partial_y f(x,y)|^2\sigma_Y^2 + 2|\partial_x f(x,y)||\partial_y f(x,y)|\sigma_{X}\sigma_{Y}} = |\partial_x f(x,y)|\sigma_X + |\partial_y f(x,y)|\sigma_Y.</math>

Osserviamo che il valore massimo è dato dalla somma diretta dei contributi delle incertezze tipo moltiplicate per i relativi coefficienti ottenuti linearizzando la relazione. Si dimostra anche che tale formula è generalizzabile al caso di una funzione dipendente da <math>n</math> variabili.

Voci correlate

Collegamenti esterni

Template:Statistica Template:Concetti base di metrologia, statistica e metodologia della ricerca Template:Controllo di autorità Template:Portale

Categoria:Statistica matematica Categoria:Analisi della varianza Categoria:Indici di correlazione