Korrelation: Forskelle mellem versioner

Fra Wikipedia, den frie encyklopædi
Content deleted Content added
Dalmer (diskussion | bidrag)
m Rettelse af stavefejl mm.
Dalmer (diskussion | bidrag)
m Rettelse af stavefejl + omplacering af afsnit.
Linje 1: Linje 1:
'''Korrelation''' (eller "ko-relation", "sam-relation") er i [[statistik]] et mål for ''sammenhængsgraden'' mellem et sæt af to [[stokastisk variabel|variable]]/målinger. En høj korrelation betyder, at det ene sæt af variable kan forudsiges fra det andet og omvendt, eller at begge variable i en vis udstrækning er et resultat af samme fælles årsag, eller at de evt. er kommet til at dele et fælles betydningsindhold (rent semantisk).<ref>Ønsker man fx korrelationen udregnet mellem to menneskelige egenskaber, som ''loyalitet'' og ''trofasthed'', bliver resultatet uundgåeligt en meget høj korrelation, der vil have forholdsvis ringe forklaringsværdi, da begge disse egenskaber rent sprogligt i vid udstrækning dækker nøjagtig det samme.</ref> Korrelation betyder således ikke nødvendigvis, at der er en direkte årsagssammenhæng mellem to variabler.
'''Korrelation''' (eller "ko-relation", "sam-relation") er i [[statistik]] et mål for ''sammenhængsgraden'' mellem et sæt af to [[stokastisk variabel|variable]]/målinger.

Det teoretiske grundlag for korrelationsberegningen skyldes oprindelig den franske matematiker [[Auguste Bravais]], der tilbage i 1840'erne udgav en række artikler, omhandlende anvendt matematik og statistik.<ref>Auguste Bravais, "Sur les probabilités de erreurs de situation d'un point", ''Mem. Acad. Royal. Sci. Inst. France'', 9:255-332.</ref> Den praktiske anvendelse af korrelationsberegningen blev dog først påbegyndt omkring 1889 af [[Francis Galton]]<ref>Francis Galton, "Co-relations and their measurement, chiefly from antropometric data", ''Proceedings of the Royal Society of London'', 45:135-145</ref> (en fætter til Charles Darwin), som fik brug for korrelationsberegninger til at kunne sammenligne størrelsen af forskellige legemsdele på dyr og mennesker i forbindelse med studiet af evolutionsteoriens følgevirkninger. Den engelske matematiker [[Karl Pearson]] videreførte Bravais' og Galton's arbejde og bidrog endeligt i 1896 til formlens nuværende udseende.<ref>Karl Pearson, "Mathematical contributions to the theory of evolution III: Regression, heredity, panmixia", ''Philo. trans. Roy. Soc. London Ser. A'', 187:253-318.</ref> Og det almindelige mål for korrelationen – den såkaldte "korrelationskoefficient" – betegnes nu ''Pearsons produkt-moment korrelation''.

En høj korrelation betyder, at det ene sæt af variable kan forudsiges fra det andet og omvendt, eller at begge variable i en vis udstrækning er et resultat af samme fælles årsag, eller at de evt. er kommet til at dele et fælles betydningsindhold (rent semantisk).<ref>Ønsker man fx korrelationen udregnet mellem to menneskelige egenskaber, som ''loyalitet'' og ''trofasthed'', bliver resultatet uundgåeligt en meget høj korrelation, der vil have forholdsvis ringe forklaringsværdi, da begge disse egenskaber rent sprogligt i vid udstrækning dækker nøjagtig det samme.</ref> (Korrelation betyder således ikke nødvendigvis, at der er en direkte årsagssammenhæng mellem to variabler).


For eksempel er ''vægt'' og ''højde'' to variable hos mennesket, der i en vis udstrækning er afhængige af hinanden – højere personer er ofte tungere end lavere personer. Men afhængigheden er ikke perfekt. Personer med samme højde kan som bekendt godt have forskellig vægt. Ikke desto mindre er det i dette tilfælde tydeligt for enhver, at der i det mindste ''gennemsnitlig'' kan iagttages en vis relation mellem højde og vægt blandt mennesker. Størrelsen af denne relation beregnes ved hjælp af nedenstående matematiske formel og ender med et slutresultat, kaldet en korrelationskoefficient (eller '''"r"'''), som varierer fra -1,00 til +1,00. Og jo nærmere '''r''' er til yderpunkterne +1,00 eller -1,00 desto større eller tættere er sammenhængen mellem de to variable.
For eksempel er ''vægt'' og ''højde'' to variable hos mennesket, der i en vis udstrækning er afhængige af hinanden – højere personer er ofte tungere end lavere personer. Men afhængigheden er ikke perfekt. Personer med samme højde kan som bekendt godt have forskellig vægt. Ikke desto mindre er det i dette tilfælde tydeligt for enhver, at der i det mindste ''gennemsnitlig'' kan iagttages en vis relation mellem højde og vægt blandt mennesker. Størrelsen af denne relation beregnes ved hjælp af nedenstående matematiske formel og ender med et slutresultat, kaldet en korrelationskoefficient (eller '''"r"'''), som varierer fra -1,00 til +1,00. Og jo nærmere '''r''' er til yderpunkterne +1,00 eller -1,00 desto større eller tættere er sammenhængen mellem de to variable.
Linje 7: Linje 11:
En korrelationskoefficient som den anførte på +0,72 giver dog endnu mere mening, dersom tallet også opløftes i 2. potens. I så fald bliver resultatet 0,52. Denne talværdi kaldes koefficientens ''varians'', hvilket betyder/afslører, at enten styres relationen mellem ''højde'' og ''vægt'' med højden som årsag til vægten for 52% vedkommende - eller også styres relationen mellem de to variable af den samme fælles årsag for ligeledes 52% vedkommende. For de resterende 48% vedkommende skyldes forholdet mellem højden og vægten således helt andre omstændigheder.<ref>Spørgsmålet er dog her, om det nu også i virkeligheden giver god mening overhovedet at korrelere de indsamlede rå data for hhv. højde og vægt med hinanden? Vægten er jo indlysende en variabel, som hidrører fra målingen af et tredimensionalt objekt - mens højden er en variabel, der alene tager sigte på kun den ene af måleobjektets tre dimensioner. Såfremt man ønsker et mere præcist udtryk for den reelle sammenhængsgrad imellem højde og vægt hos mennesket, vil det givetvis være mere retvisende først at transformere den ene af variablerne, så begge variable dermed kan bringes på samme dimensionelle niveau, inden de korreleres med hinanden. Det kunne fx gøres ved først at tage kubikroden til alle vægt-tallene, inden selve udførelsen af korrelationsberegningen. En sådan forudgående variabeltransformation vil sandsynligvis kunne resultere i en noget højere korrelationskoefficient - og dermed afsløre en væsentlig tættere sammenhæng mellem højde og vægt, end først udmålt. (Det er således altid vigtigt, at man sørger for at overveje hvilke [[måleskalaer|talskalaer]], som det er mest relevant at benytte i forbindelse med en påtænkt korrelationsberegning).</ref> Til sammenligning kan nævnes, at utallige undersøgelser har vist, at korrelationen vedrørende intelligenskvotienten<ref>Intelligensbegrebet dækker over en række mentale evner, som fx indlæringshastighed, problemløsning, hukommelsesspændvidde, opfattelsesevne, læsefærdighed, skriftlighed, talbehandling, abstraktionsevne, o.lign.</ref> hos enæggede tvillinger, adskilt fra fødslen og bortadopteret til hver sit sociokulturelle miljø at vokse op i, i gennemsnit ligger så højt som '''r''' = +0,84. Opløftes dette tal i 2. potens, ses variansen at udgøre, at ca. 70% af intelligens-niveauet hos det enkelte menneske må anses for arveligt bestemt fra dets forældre, mens de resterende kun ca. 30% kan tilskrives miljøbetingede faktorer, herunder specielle uddannelsesvilkår, o.lign.<ref>Det skal dog her bemærkes, at intelligensniveauet igennem de sidste hundrede år globalt set hele tiden langsomt ses at flytte sig i opadgående retning med ca. 3 IQ-points pr. 10-år ([[Flynn-effekten]]). Menneskeheden synes med andre ord at blive klogere i takt med den globale udvikling. Fænomenet har fået mange til verden over at hævde, at intelligens er væsentlig mere et socialt produkt, end et genetisk produkt. – Påstanden er imidlertid stærkt overdrevet og næppe korrekt. I så fald ville man lige så vel kunne hævde, at menneskets gennemsnitshøjde er mere et socialt eller ernæringsmæssigt produkt, end just et genetisk produkt, blot fordi gennemsnitshøjden i løbet af de sidste hundrede år ses øget med ca. 10 cm. Arvens betydning for både ''intelligensniveauet'' (målt i IQ) og ''højden'' (målt i cm) er ifølge utallige gentagne korrelationsberegninger væsentlig større end miljøets betydning – på de her nævnte to områder i en størrelsesorden af henholdsvis 70% og 80%.</ref>
En korrelationskoefficient som den anførte på +0,72 giver dog endnu mere mening, dersom tallet også opløftes i 2. potens. I så fald bliver resultatet 0,52. Denne talværdi kaldes koefficientens ''varians'', hvilket betyder/afslører, at enten styres relationen mellem ''højde'' og ''vægt'' med højden som årsag til vægten for 52% vedkommende - eller også styres relationen mellem de to variable af den samme fælles årsag for ligeledes 52% vedkommende. For de resterende 48% vedkommende skyldes forholdet mellem højden og vægten således helt andre omstændigheder.<ref>Spørgsmålet er dog her, om det nu også i virkeligheden giver god mening overhovedet at korrelere de indsamlede rå data for hhv. højde og vægt med hinanden? Vægten er jo indlysende en variabel, som hidrører fra målingen af et tredimensionalt objekt - mens højden er en variabel, der alene tager sigte på kun den ene af måleobjektets tre dimensioner. Såfremt man ønsker et mere præcist udtryk for den reelle sammenhængsgrad imellem højde og vægt hos mennesket, vil det givetvis være mere retvisende først at transformere den ene af variablerne, så begge variable dermed kan bringes på samme dimensionelle niveau, inden de korreleres med hinanden. Det kunne fx gøres ved først at tage kubikroden til alle vægt-tallene, inden selve udførelsen af korrelationsberegningen. En sådan forudgående variabeltransformation vil sandsynligvis kunne resultere i en noget højere korrelationskoefficient - og dermed afsløre en væsentlig tættere sammenhæng mellem højde og vægt, end først udmålt. (Det er således altid vigtigt, at man sørger for at overveje hvilke [[måleskalaer|talskalaer]], som det er mest relevant at benytte i forbindelse med en påtænkt korrelationsberegning).</ref> Til sammenligning kan nævnes, at utallige undersøgelser har vist, at korrelationen vedrørende intelligenskvotienten<ref>Intelligensbegrebet dækker over en række mentale evner, som fx indlæringshastighed, problemløsning, hukommelsesspændvidde, opfattelsesevne, læsefærdighed, skriftlighed, talbehandling, abstraktionsevne, o.lign.</ref> hos enæggede tvillinger, adskilt fra fødslen og bortadopteret til hver sit sociokulturelle miljø at vokse op i, i gennemsnit ligger så højt som '''r''' = +0,84. Opløftes dette tal i 2. potens, ses variansen at udgøre, at ca. 70% af intelligens-niveauet hos det enkelte menneske må anses for arveligt bestemt fra dets forældre, mens de resterende kun ca. 30% kan tilskrives miljøbetingede faktorer, herunder specielle uddannelsesvilkår, o.lign.<ref>Det skal dog her bemærkes, at intelligensniveauet igennem de sidste hundrede år globalt set hele tiden langsomt ses at flytte sig i opadgående retning med ca. 3 IQ-points pr. 10-år ([[Flynn-effekten]]). Menneskeheden synes med andre ord at blive klogere i takt med den globale udvikling. Fænomenet har fået mange til verden over at hævde, at intelligens er væsentlig mere et socialt produkt, end et genetisk produkt. – Påstanden er imidlertid stærkt overdrevet og næppe korrekt. I så fald ville man lige så vel kunne hævde, at menneskets gennemsnitshøjde er mere et socialt eller ernæringsmæssigt produkt, end just et genetisk produkt, blot fordi gennemsnitshøjden i løbet af de sidste hundrede år ses øget med ca. 10 cm. Arvens betydning for både ''intelligensniveauet'' (målt i IQ) og ''højden'' (målt i cm) er ifølge utallige gentagne korrelationsberegninger væsentlig større end miljøets betydning – på de her nævnte to områder i en størrelsesorden af henholdsvis 70% og 80%.</ref>


Formlen for den mest benyttede korrelationsberegning (Pearson’s produkt-moment korrelation) fik i 1896 sin endelige udformning af den engelske matematiker, [[Karl Pearson]], og er baseret på brugen af almindelige metriske [[måleskala|talskala]]er (dvs. ''ratioskalaer'' og ''intervalskalaer''). Både ''vægt'' og ''højde'' udmåles således altid på en ratioskala. Skulle man derimod ønske at korrelere en feberkurve med fx en kurve for blodsænkningstallet,<ref>''Blodsænkning'' er en måling af, hvor meget de røde blodceller synker ned gennem en blodprøve i et reagensglas i løbet af en time. Analysen bruges ofte af læger til at påvise og følge kroniske betændelsestilstande i kroppen, men den siger dog ikke noget konkret om nøjagtig hvilken sygdom, der er tale om.</ref> vil det altid ske på en intervalskala. Feberkurven, der måles i Celsius grader, har nemlig lige så lidt som skalaen for blodsænkningstallet et såkaldt [[absolut nulpunkt]],<ref>Talskalaer med et ''absolut nulpunkt'' er kendetegnet ved ikke at indeholde negative talværdier. Da Celsius-skalaen indeholder negative tal (fx 10 graders frost = - 10<sup>o</sup>), har den kun et ''relativt nulpunkt'', nemlig der, hvor vand fryser til is. Derimod har en anden temperaturskala, Kelvin-skalaen, et sådant absolut nulpunkt (0<sup>o</sup> K), og som har vist sig at ligge på - 273,15<sup>o</sup> Celsius, hvor intet vil kunne blive koldere end det.</ref> hvilket betyder, at beregninger via multiplikation og division er udelukket - kun addition og subtraktion vil være mulig på intervalskalaer. Man kan dog i begge tilfælde være sikker på, at en vægt på 100 kg ligger nøjagtig midt imellem 90 kg og 110 kg. Ligesom 40<sup>o</sup> i feber ligger nøjagtig midt imellem 39<sup>o</sup> og 41<sup>o</sup> i feber. – Men ønsker man at måle korrelationen mellem fx en mulig samtidig forekomst af både ''angst'' og ''depression'' via et spørgeskema på et stort antal mennesker, og der her gives tre svarmuligheder: ''(1)Ja altid – (2)Sommetider – (3)Slet ikke,'' så kan man ikke regne med, at svaret ''(2)Sommetider'' ligger midt imellem yderpunkterne og i nøjagtig samme afstand fra ''(1)Ja altid'' og ''(3)Slet ikke''. I sidstnævnte tilfælde er der her anderledes tale om brugen af en såkaldt ''ordinalskala'', også kaldet en ''rangordensskala''. Formlen for korrelationsberegninger på en ordinalskala ([[Charles Spearman|Spearman’s]] rang korrelation) er som følge heraf også anderledes end for Pearson’s korrelation. Men alligevel ses ikke sjældent Pearson’s korrelation af nemheds grunde<ref>Manglende anvendelse af Spearman's korrelation skyldes dog også hyppigt, at denne formel ikke altid forefindes lagt ind i statistikprogrammerne på computeren.</ref> brugt også på ordinalskalaer, da det herved fremkomne fejlbehæftede resultat ''i praksis'' som oftest ikke ses at afvige ret meget i forhold til brugen af den korrekte beregningsmåde.
Formlen for den mest benyttede korrelationsberegning (Pearson’s produkt-moment korrelation) er baseret på brugen af almindelige metriske [[måleskala|talskala]]er, dvs. ''ratioskalaer'' og ''intervalskalaer''. Både ''vægt'' og ''højde'' udmåles således altid på en ratioskala. Skulle man derimod ønske at korrelere en feberkurve med fx en kurve for blodsænkningstallet,<ref>''Blodsænkning'' er en måling af, hvor meget de røde blodceller synker ned gennem en blodprøve i et reagensglas i løbet af en time. Analysen bruges ofte af læger til at påvise og følge kroniske betændelsestilstande i kroppen, men den siger dog ikke noget konkret om nøjagtig hvilken sygdom, der er tale om.</ref> vil det altid ske på en intervalskala. Feberkurven, der måles i Celsius grader, har nemlig lige så lidt som skalaen for blodsænkningstallet et såkaldt [[absolut nulpunkt]],<ref>Talskalaer med et ''absolut nulpunkt'' er kendetegnet ved ikke at indeholde negative talværdier. Da Celsius-skalaen indeholder negative tal (fx 10 graders frost = - 10<sup>o</sup>), har den kun et ''relativt nulpunkt'', nemlig der, hvor vand fryser til is. Derimod har en anden temperaturskala, Kelvin-skalaen, et sådant absolut nulpunkt (0<sup>o</sup> K), og som har vist sig at ligge på - 273,15<sup>o</sup> Celsius, hvor intet vil kunne blive koldere end det.</ref> hvilket betyder, at beregninger via multiplikation og division er udelukket - kun addition og subtraktion vil være mulig på intervalskalaer. Man kan dog i begge tilfælde være sikker på, at en vægt på 100 kg ligger nøjagtig midt imellem 90 kg og 110 kg. Ligesom 40<sup>o</sup> i feber ligger nøjagtig midt imellem 39<sup>o</sup> og 41<sup>o</sup> i feber. – Men ønsker man at måle korrelationen mellem fx en mulig samtidig forekomst af både ''angst'' og ''depression'' via et spørgeskema på et stort antal mennesker, og der her gives tre svarmuligheder: ''(1)Ja altid – (2)Sommetider – (3)Slet ikke,'' så kan man ikke regne med, at svaret ''(2)Sommetider'' ligger midt imellem yderpunkterne og i nøjagtig samme afstand fra ''(1)Ja altid'' og ''(3)Slet ikke''. I sidstnævnte tilfælde er der her anderledes tale om brugen af en såkaldt ''ordinalskala'', også kaldet en ''rangordensskala''. Formlen for korrelationsberegninger på en ordinalskala ([[Charles Spearman|Spearman’s]] rang korrelation) er som følge heraf også anderledes end for Pearson’s korrelation. Men alligevel ses ikke sjældent Pearson’s korrelation af nemheds grunde<ref>Manglende anvendelse af Spearman's korrelation skyldes dog også hyppigt, at denne formel ikke altid forefindes lagt ind i statistikprogrammerne på computeren.</ref> brugt også på ordinalskalaer, da det herved fremkomne fejlbehæftede resultat ''i praksis'' som oftest ikke ses at afvige ret meget i forhold til brugen af den korrekte beregningsmåde.


I forbindelse med gennemførelsen af fx store forskningsprojekter el.lign. med rigtig mange forskellige variable, foretager man ofte korrelationsberegninger parvis mellem alle de udmålte variable indbyrdes for bl.a. at kunne reducere mængden af, hvad der under udregningen måtte vise sig at være variable af mindre betydning - en proces, som vil fremme hele overskueligheden i data-materialet. Det gøres ved at stille et sådant sæt af krydstabulerede korrelationsberegninger op i en to-dimensional ''korrelationsmatrice'', som herefter vil kunne danne udgangspunktet for udregningerne med henblik på tilvejebringelsen af en såkaldt ''faktor-model'' ved hjælp af [[faktoranalyse]] (sker teoretisk via brugen af [[Matrix|matrix-algebra]] - i praksis via en computer-kørsel).
I forbindelse med gennemførelsen af fx store forskningsprojekter el.lign. med rigtig mange forskellige variable, foretager man ofte korrelationsberegninger parvis mellem alle de udmålte variable indbyrdes for bl.a. at kunne reducere mængden af, hvad der under udregningen måtte vise sig at være variable af mindre betydning - en proces, som vil fremme hele overskueligheden i data-materialet. Det gøres ved at stille et sådant sæt af krydstabulerede korrelationsberegninger op i en to-dimensional ''korrelationsmatrice'', som herefter vil kunne danne udgangspunktet for udregningerne med henblik på tilvejebringelsen af en såkaldt ''faktor-model'' ved hjælp af [[faktoranalyse]] (sker teoretisk via brugen af [[Matrix|matrix-algebra]] - i praksis via en computer-kørsel).
Linje 42: Linje 46:
Det kan endvidere bemærkes, at det er muligt at regne den statistiske [[fordelingsfunktion]] af korrelationskoefficienten ud, givet at de to variabler er normalfordelte og der ingen korrelation er imellem dem.<ref>[[Jørgen Granfeldt]] [http://home.imf.au.dk/statbib/atskurser/stat1/noter/n2np_f2005_trykning.pdf "Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data, Flerdimensionale normalfordelte data"], [[Aarhus Universitet]], 2005 februar.</ref>
Det kan endvidere bemærkes, at det er muligt at regne den statistiske [[fordelingsfunktion]] af korrelationskoefficienten ud, givet at de to variabler er normalfordelte og der ingen korrelation er imellem dem.<ref>[[Jørgen Granfeldt]] [http://home.imf.au.dk/statbib/atskurser/stat1/noter/n2np_f2005_trykning.pdf "Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data, Flerdimensionale normalfordelte data"], [[Aarhus Universitet]], 2005 februar.</ref>


Til brug for en mere oversigtsgivende fremstilling (grafisk) af de variabelværdier, der indgår i en simpel korrelationsberegning, bruger man ofte et såkaldt scatterplot.
Til brug for en mere oversigtsgivende fremstilling (grafisk) af de variabelværdier, der indgår i en simpel korrelationsberegning, bruger man ofte et såkaldt ''scatterplot''.

Den praktiske anvendelse af korrelation begyndte med [[Francis Galton]] omkring 1889<ref>[[Francis Galton]], "Co-relations and their measurement, chiefly from antropometric data", ''Proceedings of the Royal Society of London'', 45:135-145</ref>, hvor han brugte en korrelationsberegning til at sammenligne størrelsen af forskellige legemsdele. Teoretisk var korrelation dog allerede behandlet af den franske matematiker [[Auguste Bravais]] i 1840'erne.<ref>[[Auguste Bravais]], "Sur les probabilités de erreurs de situation d'un point", ''Mem. Acad. Royal. Sci. Inst. France'', 9:255-332.</ref> [[Karl Pearson]] viderførte Bravais' og Galton's arbejde<ref>[[Karl Pearson]], "Mathematical contributions to the theory of evolution III: Regression, heredity, panmixia", ''Philo. trans. Roy. Soc. London Ser. A'', 187:253-318</ref>, og det almindelige mål for korrelationen – "korrelationskoefficienten" – betegnes nu ''Pearsons korrelation''.


== Noter ==
== Noter ==

Versionen fra 5. mar. 2015, 16:14

Korrelation (eller "ko-relation", "sam-relation") er i statistik et mål for sammenhængsgraden mellem et sæt af to variable/målinger.

Det teoretiske grundlag for korrelationsberegningen skyldes oprindelig den franske matematiker Auguste Bravais, der tilbage i 1840'erne udgav en række artikler, omhandlende anvendt matematik og statistik.[1] Den praktiske anvendelse af korrelationsberegningen blev dog først påbegyndt omkring 1889 af Francis Galton[2] (en fætter til Charles Darwin), som fik brug for korrelationsberegninger til at kunne sammenligne størrelsen af forskellige legemsdele på dyr og mennesker i forbindelse med studiet af evolutionsteoriens følgevirkninger. Den engelske matematiker Karl Pearson videreførte Bravais' og Galton's arbejde og bidrog endeligt i 1896 til formlens nuværende udseende.[3] Og det almindelige mål for korrelationen – den såkaldte "korrelationskoefficient" – betegnes nu Pearsons produkt-moment korrelation.

En høj korrelation betyder, at det ene sæt af variable kan forudsiges fra det andet og omvendt, eller at begge variable i en vis udstrækning er et resultat af samme fælles årsag, eller at de evt. er kommet til at dele et fælles betydningsindhold (rent semantisk).[4] (Korrelation betyder således ikke nødvendigvis, at der er en direkte årsagssammenhæng mellem to variabler).

For eksempel er vægt og højde to variable hos mennesket, der i en vis udstrækning er afhængige af hinanden – højere personer er ofte tungere end lavere personer. Men afhængigheden er ikke perfekt. Personer med samme højde kan som bekendt godt have forskellig vægt. Ikke desto mindre er det i dette tilfælde tydeligt for enhver, at der i det mindste gennemsnitlig kan iagttages en vis relation mellem højde og vægt blandt mennesker. Størrelsen af denne relation beregnes ved hjælp af nedenstående matematiske formel og ender med et slutresultat, kaldet en korrelationskoefficient (eller "r"), som varierer fra -1,00 til +1,00. Og jo nærmere r er til yderpunkterne +1,00 eller -1,00 desto større eller tættere er sammenhængen mellem de to variable.

Såfremt r er tæt på 0,00 betyder det, at der ikke er nogen sammenhæng mellem variablerne. Hvis r er positiv betyder det, at når en variabel (fx højde) bliver større, så bliver den anden variabel (vægt) det også, og omvendt. Hvis r derimod er negativ, betyder det, at når en variabel bliver større, så bliver den anden mindre (kaldes omvendt korrelation). - Når det gælder korrelationen mellem højde og vægt hos mennesket, ses den ofte beregnet til r = +0,72 under forudsætning af, at man til brug for beregningen har fået målt højden og vægten hos et stort antal mennesker. Korrelationen kan (i dette tilfælde) således vise, hvor meget vægten afhænger af højden. - Desværre er korrelationskalaen fra -1,00 og til +1,00 ikke en lineær skala på samme måde som på et målebånd eller en lineal, men følger i stedet en cosinus-funktion. Der er med andre ord ikke samme afstand mellem fx to korrelationskoefficienter på henholdsvis r = +0,83 og +0,85 sammenlignet med afstanden mellem to andre korrelationskoefficienter, lydende på henholdsvis r = +0,33 og +0,35. Differencen er ganske vist begge steder 0,02 nummerisk set. Men i førstnævnte tilfælde er værdien af dette interval på dette sted af korrelationsskalaen noget større end i sidstnævnte tilfælde, nemlig hele ca. 75%.

En korrelationskoefficient som den anførte på +0,72 giver dog endnu mere mening, dersom tallet også opløftes i 2. potens. I så fald bliver resultatet 0,52. Denne talværdi kaldes koefficientens varians, hvilket betyder/afslører, at enten styres relationen mellem højde og vægt med højden som årsag til vægten for 52% vedkommende - eller også styres relationen mellem de to variable af den samme fælles årsag for ligeledes 52% vedkommende. For de resterende 48% vedkommende skyldes forholdet mellem højden og vægten således helt andre omstændigheder.[5] Til sammenligning kan nævnes, at utallige undersøgelser har vist, at korrelationen vedrørende intelligenskvotienten[6] hos enæggede tvillinger, adskilt fra fødslen og bortadopteret til hver sit sociokulturelle miljø at vokse op i, i gennemsnit ligger så højt som r = +0,84. Opløftes dette tal i 2. potens, ses variansen at udgøre, at ca. 70% af intelligens-niveauet hos det enkelte menneske må anses for arveligt bestemt fra dets forældre, mens de resterende kun ca. 30% kan tilskrives miljøbetingede faktorer, herunder specielle uddannelsesvilkår, o.lign.[7]

Formlen for den mest benyttede korrelationsberegning (Pearson’s produkt-moment korrelation) er baseret på brugen af almindelige metriske talskalaer, dvs. ratioskalaer og intervalskalaer. Både vægt og højde udmåles således altid på en ratioskala. Skulle man derimod ønske at korrelere en feberkurve med fx en kurve for blodsænkningstallet,[8] vil det altid ske på en intervalskala. Feberkurven, der måles i Celsius grader, har nemlig lige så lidt som skalaen for blodsænkningstallet et såkaldt absolut nulpunkt,[9] hvilket betyder, at beregninger via multiplikation og division er udelukket - kun addition og subtraktion vil være mulig på intervalskalaer. Man kan dog i begge tilfælde være sikker på, at en vægt på 100 kg ligger nøjagtig midt imellem 90 kg og 110 kg. Ligesom 40o i feber ligger nøjagtig midt imellem 39o og 41o i feber. – Men ønsker man at måle korrelationen mellem fx en mulig samtidig forekomst af både angst og depression via et spørgeskema på et stort antal mennesker, og der her gives tre svarmuligheder: (1)Ja altid – (2)Sommetider – (3)Slet ikke, så kan man ikke regne med, at svaret (2)Sommetider ligger midt imellem yderpunkterne og i nøjagtig samme afstand fra (1)Ja altid og (3)Slet ikke. I sidstnævnte tilfælde er der her anderledes tale om brugen af en såkaldt ordinalskala, også kaldet en rangordensskala. Formlen for korrelationsberegninger på en ordinalskala (Spearman’s rang korrelation) er som følge heraf også anderledes end for Pearson’s korrelation. Men alligevel ses ikke sjældent Pearson’s korrelation af nemheds grunde[10] brugt også på ordinalskalaer, da det herved fremkomne fejlbehæftede resultat i praksis som oftest ikke ses at afvige ret meget i forhold til brugen af den korrekte beregningsmåde.

I forbindelse med gennemførelsen af fx store forskningsprojekter el.lign. med rigtig mange forskellige variable, foretager man ofte korrelationsberegninger parvis mellem alle de udmålte variable indbyrdes for bl.a. at kunne reducere mængden af, hvad der under udregningen måtte vise sig at være variable af mindre betydning - en proces, som vil fremme hele overskueligheden i data-materialet. Det gøres ved at stille et sådant sæt af krydstabulerede korrelationsberegninger op i en to-dimensional korrelationsmatrice, som herefter vil kunne danne udgangspunktet for udregningerne med henblik på tilvejebringelsen af en såkaldt faktor-model ved hjælp af faktoranalyse (sker teoretisk via brugen af matrix-algebra - i praksis via en computer-kørsel).

Udregning af Pearson's produkt-moment korrelationskoefficient

Korrelationen mellem to tilfældige variable X og Y benævnes og kan udregnes på flere måder, fx:

[1]  :

hvor angiver kovariansen, angiver variansen og angiver standardafvigelsen. Det bemærkes, at .


Hvis den empiriske korrelation ønskes udregnet direkte fra et datasæt, kan denne formel benyttes:

[2]  :

Udregning af Spearman's rang korrelationskoefficient

eller mere korrekt :

hvor , er forskellen mellem rangordens-værdierne.



Bemærkninger

Spearman´s rang korrelationskoefficient ses ofte beskrevet som værende "non-parametrisk". Dvs. at den nøjagtige spredningsfordeling for de indsamlede data her kan håndteres uden yderligere beregning af parametre vedrørende den fælles sandsynlighedsfordeling af X og Y.

Ofte bruger statistikere og andre bogstavet r for en korrelation udregnet med et givent datasæt som stikprøve, og det græske bogstav rho til via en korrektion i formlen at angive en hel populations korrelation.

Det kan endvidere bemærkes, at det er muligt at regne den statistiske fordelingsfunktion af korrelationskoefficienten ud, givet at de to variabler er normalfordelte og der ingen korrelation er imellem dem.[11]

Til brug for en mere oversigtsgivende fremstilling (grafisk) af de variabelværdier, der indgår i en simpel korrelationsberegning, bruger man ofte et såkaldt scatterplot.

Noter

  1. ^ Auguste Bravais, "Sur les probabilités de erreurs de situation d'un point", Mem. Acad. Royal. Sci. Inst. France, 9:255-332.
  2. ^ Francis Galton, "Co-relations and their measurement, chiefly from antropometric data", Proceedings of the Royal Society of London, 45:135-145
  3. ^ Karl Pearson, "Mathematical contributions to the theory of evolution III: Regression, heredity, panmixia", Philo. trans. Roy. Soc. London Ser. A, 187:253-318.
  4. ^ Ønsker man fx korrelationen udregnet mellem to menneskelige egenskaber, som loyalitet og trofasthed, bliver resultatet uundgåeligt en meget høj korrelation, der vil have forholdsvis ringe forklaringsværdi, da begge disse egenskaber rent sprogligt i vid udstrækning dækker nøjagtig det samme.
  5. ^ Spørgsmålet er dog her, om det nu også i virkeligheden giver god mening overhovedet at korrelere de indsamlede rå data for hhv. højde og vægt med hinanden? Vægten er jo indlysende en variabel, som hidrører fra målingen af et tredimensionalt objekt - mens højden er en variabel, der alene tager sigte på kun den ene af måleobjektets tre dimensioner. Såfremt man ønsker et mere præcist udtryk for den reelle sammenhængsgrad imellem højde og vægt hos mennesket, vil det givetvis være mere retvisende først at transformere den ene af variablerne, så begge variable dermed kan bringes på samme dimensionelle niveau, inden de korreleres med hinanden. Det kunne fx gøres ved først at tage kubikroden til alle vægt-tallene, inden selve udførelsen af korrelationsberegningen. En sådan forudgående variabeltransformation vil sandsynligvis kunne resultere i en noget højere korrelationskoefficient - og dermed afsløre en væsentlig tættere sammenhæng mellem højde og vægt, end først udmålt. (Det er således altid vigtigt, at man sørger for at overveje hvilke talskalaer, som det er mest relevant at benytte i forbindelse med en påtænkt korrelationsberegning).
  6. ^ Intelligensbegrebet dækker over en række mentale evner, som fx indlæringshastighed, problemløsning, hukommelsesspændvidde, opfattelsesevne, læsefærdighed, skriftlighed, talbehandling, abstraktionsevne, o.lign.
  7. ^ Det skal dog her bemærkes, at intelligensniveauet igennem de sidste hundrede år globalt set hele tiden langsomt ses at flytte sig i opadgående retning med ca. 3 IQ-points pr. 10-år (Flynn-effekten). Menneskeheden synes med andre ord at blive klogere i takt med den globale udvikling. Fænomenet har fået mange til verden over at hævde, at intelligens er væsentlig mere et socialt produkt, end et genetisk produkt. – Påstanden er imidlertid stærkt overdrevet og næppe korrekt. I så fald ville man lige så vel kunne hævde, at menneskets gennemsnitshøjde er mere et socialt eller ernæringsmæssigt produkt, end just et genetisk produkt, blot fordi gennemsnitshøjden i løbet af de sidste hundrede år ses øget med ca. 10 cm. Arvens betydning for både intelligensniveauet (målt i IQ) og højden (målt i cm) er ifølge utallige gentagne korrelationsberegninger væsentlig større end miljøets betydning – på de her nævnte to områder i en størrelsesorden af henholdsvis 70% og 80%.
  8. ^ Blodsænkning er en måling af, hvor meget de røde blodceller synker ned gennem en blodprøve i et reagensglas i løbet af en time. Analysen bruges ofte af læger til at påvise og følge kroniske betændelsestilstande i kroppen, men den siger dog ikke noget konkret om nøjagtig hvilken sygdom, der er tale om.
  9. ^ Talskalaer med et absolut nulpunkt er kendetegnet ved ikke at indeholde negative talværdier. Da Celsius-skalaen indeholder negative tal (fx 10 graders frost = - 10o), har den kun et relativt nulpunkt, nemlig der, hvor vand fryser til is. Derimod har en anden temperaturskala, Kelvin-skalaen, et sådant absolut nulpunkt (0o K), og som har vist sig at ligge på - 273,15o Celsius, hvor intet vil kunne blive koldere end det.
  10. ^ Manglende anvendelse af Spearman's korrelation skyldes dog også hyppigt, at denne formel ikke altid forefindes lagt ind i statistikprogrammerne på computeren.
  11. ^ Jørgen Granfeldt "Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data, Flerdimensionale normalfordelte data", Aarhus Universitet, 2005 februar.