Johdatus tilastotieteeseen

Oppitunti:
Aihe:

4.3.1 Pearsonin korrelaatiokerroin

Korrelaation laskemiseksi lasketaan ensin muuttujien kovarianssi. Kovarianssi eli yhteisvaihtelu kuvaa riippuvuutta, joka nähdään muuttujien poikkeamissa keskiarvoista. X-muuttujalle poikkeamat ovat 

x1 – x̅,  x2 – x̅, ..., xn – x̅

ja y-muuttujalle vastaavasti

y1 – y̅,  y2 – y̅, ..., yn – y̅

Kovarianssi mittaa, esiintyvätkö itseisarvoltaan suuret saman merkkiset poikkeamat usein samoissa havainnoissa. Tämä osoittaa muuttujien riippuvuuden.

Kovarianssi lasketaan poikkeamien tulojen keskiarvona (tosin jakajana n–1)

Kahden positiivisen poikkeaman tulo on positiivinen, samoin kahden negatiivisen poikkeaman tulo.

Taulukossa näytetään kahden keksityn muuttujan poikkeamien tuloja. Ne ovat positiivisia useimmissa havainnoissa. Tämän vuoksi kovarianssi on suuri.

Taulukko. Kovarianssin laskenta

x:n ja y:n keskiarvot ovat kumpikin 6

x y x:n poikkeama,
x–x:n keskiarvo
y:n poikkeama,
y–y:n keskiarvo

poikkeamien tulo
(x–x:n keskiarvo) × (y–y:n keskiarvo)

3 2 -3 -4 12
4 5 -2 -1   2
6 5  0 -1   0
11 12  5  6 30

Kovarianssi on

Korrelaatiokertoimessa kovarianssi suhteutetaan muuttujien sisäiseen vaihteluun, jota mitataan keskihajonnalla. Pearsonin korrelaatiokertoimen kaava on

Pearsonin korrelaatiokerroin mittaa kahden muuttujan korrelaatiota välillä –1:stä 1:een. Arvo –1 osoittaa pistekuvion pisteiden sijaitsevan laskevalla suoralla ja arvo 1 osoittaa pisteiden asettuvan nousevalle suoralle. Kun kaikki pisteet ovat suoralla, riippuvuus on täydellistä. Korrelaation merkki kuvaa, onko riippuvuus negatiivista vai positiivista.

Esimerkit

Jaa