Kapitel 10 Korrelation

Sentry Page Protection

Korrelationskoefficienten viser hvordan 2 variable varierer sammen, korrelationskoefficienten er et tal mellem -1 og 1. Dagstemperaturen og dagssalget af is på Seven Eleven, har positiv samvarians, vi siger de er positivt korrelerede. Høj temperatur (varme) betyder højt salg af is, lav temperatur (kulde) betyder lavt salg af is. Korrelationskoefficienten vil derfor være et positivt tal.

Dagstemperaturen og dagssalget af varm kakao på Seven Eleven, har negativ samvarians, vi siger de er negativt korrelerede. Høj temperatur (varme) betyder lavt salg af kakao, lav temperatur (kulde) betyder højt salg af kakao. korrelationskoefficienten vil derfor være et negativt tal.

Er korrelationskoefficienten 0 eller tæt på 0 er 2 variable ikke korrelerede, fx. nedbørsmængden i Bergen og Intel kursen.

Det er svært præcis at definere grænser for hvornår noget er korreleret stærkt og svagt eller slet ikke, herunder er dog et skema der angiver mulige tolkninger af korrelationskoefficienter.

Korrelationskoefficient Tolkning
-1 til -0.8 Stærk negativ korrelation
-0.8 til -0.6 Klar negativ korrelation
-0.6 til -0.3 Negativ korrelation
-0.3 til -0.15 Svag negativ korrelation
-0.15 til -0.1 Meget svag negativ korrelation
-0.1 til 0.1 Ingen korrelation
0.1 til 0.15 Meget svag positiv korrelation
0.15 til 0.3 Svag positiv korrelation
0.3 til 0.6 Positiv korrelation
0.6 til 0.8 Klar positiv korrelation
0.8 til 1 Stærk positiv korrelation

Ud fra korrelationskoefficienten alene, er det ikke umiddelbart muligt at tale om hvilken af de 2 variable der har effekt på den anden variabel. Korrelationskoefficienten fortæller alene, om der er en samvariation mellem 2 variable.

Vi kan betegne korrelationskoefficienten med r eller det græske bogstav \(\rho\), man kan teste om korrelationskoefficenten er signifikant forskellig fra 0.

\[H_0:\rho=0\ dvs. \ ingen \ korrelation\] \[H_A:\rho\neq0\ dvs. \ korrelation\] Vi ser nu på datasættet HELBRED.xlsx med helbredsoplysninger for 318 respondanter, hvor vi sammenligner variablene Spise frugt, Spise grøntsager, Dyrke sport, Højde og Vægt. Nedenfor ses output fra Freestat

Vi ser på tabelen korrelationsmatrice. Bemærk de 5 variable giver korrelationskoefficienter for de 10 mulige parvise kombinationer. Man behøver kun at se på koefficienterne under diagonalen med 1 taller, den øverste del er samme koefficienter. Der er 1 taller i diagonalen da fx. Spise frugt er perfekt positivt korreleret med sig selv.

Korrelationskoefficienterne er farvekodet jo rødere koefficient, des mere negativt korrelerede er 2 variable. Grønne koefficienter betyder positiv korrelation mellem 2 variable. Hvide eller svagt farvede betyder ingen eller ringe korrelation.

Ikke overraskende er der grøn positiv korrelationskoefficient på 0.38 mellem spise frugt og spise grøntsager. Det betyder respondenter der spiser megen frugt, har større tilbøjelighed til at spise mange grøntsager og omvendt. Ligeledes betyder dette at spiser man få grøntsager spiser man ligeledes lidt frugt.

Af den røde negative korrelationskoefficient på -0.1884 for grøntsager og vægt ses, at høj vægt betyder man spiser få grøntsager, lav vægt betyder flere grøntsager. Denne sammenhæng er ikke så stærk som for frugt og grøntsager.

Bemærk korrelationen beskriver en samvariation mellem 2 variable, men ikke hvad forklaringen er på samvariationen, hvis der overhovedet er en fornuftig forklaring på korrelationen. Vi siger at hvis der er en årsagssammenhæng mellem 2 variable, at der er kausalitet. Der kan godt være korrelation uden at der er kausalitet.

Statistikere opdagede i 1920’erne positiv korrelation mellem antallet af lungekræfttilfælde og cigaretrygning. Der gik dog flere årtier inden man konstaterede, at der var kausalitet mellem rygning og lungekræft.

10.0.1 Spuriøse korrelationer

Konstaterer man variable er korrelerede, uden en der er en fornuftig årsagssammenhæng, siger vi, der er tale om en spuriøs korrelation.

Danske forskere opdagede, at der var positiv korrelation mellem antallet af børnefødsler og antallet af storkepar. Det var dog ikke storken der kom med børnene. Folk i landområder, får flere børn end folk i byområder af socioøkonomiske årsager. I byområder er der få storke. Når variablene forekomsten af børnefødsler og antallet af storkepar forklares af en mellemkommende variabel, urbaniseringsgrad, siger vi sammenhængen mellem storke og børnefødsler er spuriøs.

Der findes flere interessante sider, der udelukkende viser spuriøse sammenhænge mellem forskellige variable. spurious correlations er en hjemmeside med mange sjove variable der er korrelerede, hvor det er svært at forestille sig en kausal sammenhæng.


Spørgsmål spuriøs korrelation. Hent datasættet spuriøs korrelation her, prøv i Freestat at beregne korrelationerne mellem skilsmisse og mælkeforbrug i første fane.


Svar spuriøs korrelation. corr1.png

Der er en stærk positiv korrelation mellem skilsmisse og mælkeforbrug. Korrelationskoefficienten er på 0.9706, men sammenhængen er spuriøs.


Spørgsmål spuriøs korrelation.

Hent datasættet spuriøs korrelation her, prøv i Freestat at beregne korrelationerne mellem drukning og mord i anden fane.


Svar spuriøs korrelation. corr2.png

Der er en stærk positiv korrelation mellem drukning og mord. Korrelationskoefficienten er på 0.8506, men sammenhængen er spuriøs.


Spørgsmål spuriøs korrelation.

Hent datasættet spuriøs korrelation her, prøv i Freestat at beregne korrelationerne mellem ost og bier i tredie fane.


Svar spuriøs korrelation.

corr3.png

Der er en positiv korrelation mellem ost og bier. Korrelationskoefficienten er på 0.4474, men sammenhængen er spuriøs.


Spørgsmål korrelation.

Hent datasættet Ford her, der viser salgspriser, kørte km etc. Beregn korrelationskoefficienterne mellem variablene År, Pris DKK, Alder (år) og Kilometer. 1. Er disse som vi ville forvente, er korrelationerne kausale? 2. Hvorfor er korrelationskoefficienten mellem År og Pris positiv når korrelationskoefficienten mellem Alder (år) og pris er negativ? 3. Hvorfor er korrelationskoefficienten mellem År og Alder (år) og pris perfekt negativt korrelleret?


Svar korrelation.

ford.png

  1. Ja korrelationerne er kausale:
    År og Pris DKK er positivt korrelerede jo højere produktionsår jo nyere bil desto højere pris.
    År og Alder (år) er negativt korrelerede, jo højere produktionsår des lavere alder i år.
    År og Kilometer er negativt korrelerede jo højere produktionsår jo færre Kilometer har bilen kørt.
    Pris DKK og Alder (år) er negativt korrelerede jo højere pris des lavere Alder i år.
    Pris DKK og Kilometer er negativt korrelerede jo højere pris jo færre Kilometer.
    Alder (år) og Kilometer er positivt korrelerede jo ældre bil des flere Kilometer er der kørt.

  2. Hvorfor er korrelationskoefficienten mellem År og Pris positiv når korrelationskoefficienten mellem Alder (år) og pris er negativ?
    År er produktionsåret og Alder er antal år højt produktionsår giver lav alder.

  3. Hvorfor er korrelationskoefficienten mellem År og Alder (år) og pris perfekt negativt korrelleret? Fordi Alder beregnes direkte ud fra 2014 - produktionsår, derfor er Alder år altid givet ud fra produktionsåret.