
Johdatus tilastotieteeseen
Esimerkki | 1 | 2 |
Korrelaation tilastollisesta merkitsevyydestä
Korrelaation tilastollista merkitsevyyttä voidaan testata. Testillä arvioidaan, millä todennäköisyydellä pelkkä sattuma on aiheuttanut suuren positiivisen korrelaatiokertoimen.
Jos havaittu korrelaatio perustuu sattumaan pienellä todennäköisyydellä, esimerkiksi alle 1 % todennäköisyydellä, muuttujien riippuvuudesta on saatu aika luotettavaa näyttöä. Sellaista korrelaatiota kutsutaan tilastollisesti merkitseväksi. Tämä ei ole aivan sama asia kuin "merkittävä" korrelaatio, sillä jos aineistossa on tuhansia havaintoja, pienehkö korrelaatio voi olla merkitsevä.
Jos sattuma näyttää olevan havaitun korrelaation selitys esimerkiksi noin 10 % todennäköisyydellä, korrelaatiota pidetään niin heikkona, että muuttujat tulkitaan jokseenkin riippumattomiksi tai muuttujien riippuvuudesta ei voi sanoa mitään.
Yleensä tutkija kiinnittää huomiota positiiviseen tai negatiiviseen korrelaatioon, jonka taustalla on sattuma vain 1 % pienemmällä todennäköisyydellä. Muutaman muuttujan aineistossa sellainen korrelaatio saattaa perustua syy-seuraussuhteeseen.
Mitä tapahtuu suuressa aineistossa, jossa on sata muuttujaa? Oletetaan, että todellisuudessa aineistossa ei ole minkäänlaisia riippuvuuksia, eli kaikki muuttujaparien todelliset korrelaatiot ovat nollia. Sattuma kuitenkin vaikuttaa laskettuihin korrelaatiokertoimiin. Sadan muuttujan aineistossa on ½ × 100 × 99 = 4 950 muuttujaparia.
Kuinka moni korrelaatiokertoimista on käytetyn kriteerin nojalla merkitsevä? Jos testisuure on luotettava, merkitseviä kertoimia odotetaan olevan suurin piirtein 0,01 × 4 950 = 49. Mutta aineistossamme ei todellisuudessa ollut yhtään todellista riippuvuutta.
Jos aineistosta löydettyjä merkitseviä korrelaatioita pidetään näyttönä todellisista syy-seuraus-suhteesta, esitetään 49 aivan perätöntä väitettä. Vaikka aineistoissa olisi esimerkiksi 10 todellista riippuvuutta, suurin osa merkitsevistä korrelaatioista olisi silti harhaan johtavia.
Suuria aineistoja käsitellään valitettavan usein tähän tyyliin, ja esitetyt johtopäätökset eivät ole luotettavia. Samanlainen ilmiö vaivaa tieteen tekoa muutenkin. Tutkijat käsittelevät usein suuria aineistoja ja julkaisevat vain tilastollisesti merkitseviä tuloksia.
Takaisin oppimateriaaliin