Korrelation

Fra Wikipedia, den frie encyklopædi
Gå til: navigation, søg

I statistik er korrelation (eller ko-relation) et mål for en sammenhæng mellem et sæt af to variable/målinger. En høj korrelation betyder, at det ene sæt af variabler kan forudsiges fra det andet og omvendt. Korrelationen er uafhængig af skala. Således vil korrelationen for to variable målt i meter være den samme, som hvis de blev målt i centimeter. Korrelation betyder ikke nødvendigvis at der er en direkte årsagssammenhæng mellem to variabler.

Den praktiske anvendelse af korrelation begyndte med Francis Galton omkring 1889[1], hvor han brugte korrelation til at sammenligne størrelsen af forskellige kropsdele. Teoretisk var korrelation dog allerede behandlet af den franske matematiker Auguste Bravias i 1840'erne. [2] Karl Pearson viderførte Bravais og Galton's arbejde[3], og det almindelige mål for korrelationen – "korrelationskoefficienten" – betegnes nu også Pearsons korrelation.

I forbindelse med korrelation bruger man ofte skatterplot.

Udregning af korrelation[redigér | redigér wikikode]

Korrelationen mellem to stokastiske variable X og Y benævnes \mbox{corr}(X,Y) (forkortelse af det engelske ord correlation) og udregnes:

\mbox{corr}(X,Y)= \frac{\mbox{cov}(X,Y)}{\sqrt{\mbox{var}(X)\cdot \mbox{var}(Y)}} = 
\frac{\mbox{cov}(X,Y)}{\mbox{std}(X)\cdot \mbox{std}(Y)}

hvor \mbox{cov} angiver kovariansen, \mbox{var} angiver variansen og \mbox{std} angiver standardafvigelsen. Ofte bruger statistikere og andre også det græske bogstav rho \rho til at angive en (populations) korrelation eller bogstavet r (for en korrelation udregnet med et givent datasæt). Det kan bemærkes, at \sqrt{\mbox{var}(X)} = \mbox{std}(X). Hvis den empiriske korrelation ønsket regnet ud fra et datasæt, regnes først de empiriske størrelser for variansen og kovariansen ud fra hvilke korrelationen kan regnes.

Det er muligt at regne den statistiske fordelingsfunktion af korrelationskoefficienten ud givet at de to variabler er normalfordelte og der ingen korrelation er imellem dem.[4]

Henvisninger[redigér | redigér wikikode]

  1. Francis Galton, "Co-relations and their measurement, chiefly from antropometric data", Proceedings of the Royal Society of London, 45:135-145
  2. Auguste Bravais, "Sur les probabilités de erreurs de situation d'un point", Mem. Acad. Royal. Sci. Inst. France, 9:255-332.
  3. Karl Pearson, "Mathematical contributions to the theory of evolution III: Regression, heredity, panmixia", Philo. trans. Roy. Soc. London Ser. A, 187:253-318
  4. Jørgen Granfeldt, "Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data, Flerdimensionale normalfordelte data", Aarhus Universitet, 2005 februar.