Tilastojen ABC

Oppitunti:
Aihe:

3.5 Tilaston analyysi

Tilastoaineiston analyysin tarkoituksena on arvioida, mikä on tutkittavien ilmiöiden osuus perusjoukossa, tiivistää tietoa, paljastaa havaintoaineistossa vallitsevia suhteita ja esittää tulokset havainnollisessa muodossa.

Jos havaintoaineisto kattaa koko perusjoukon, on kiinnostuksen kohteena olevan ilmiön yleisyyden arviointi melko yksinkertaista. On vain osattava arvioida tiedon hankinnassa ja muokkauksessa tapahtuneiden mahdollisten virheiden vaikutus lopputulokseen. Esimerkiksi väestötilastot pohjautuvat kaikki suomalaiset kattavaan väestörekisteriin.

Usein tilastojen tiedot pohjautuvat kuitenkin perusjoukkoa kuvaavaan otokseen. Silloin perusjoukkoa koskevien tunnuslukujen arvioinnin tulokset ovat estimaatteja eli perusjoukon ominaisuuksia kuvaavia arvioita. Estimointi edellyttää otoksen kokoon ja rakenteeseen pohjautuvaa analyysia, jolla selvitetään hankitun tiedon harhaisuutta ja virhemarginaalia.

Tilastoaineiston perusmuoto on laaja taulukkomatriisi, jossa havaintoaineiston perusulottuvuudet eli muuttujat on tarkoin esitetty. Yleensä matriisit ovat niin sanottuja ristiintaulukointeja, joissa jotkut muuttujat/kysymykset on ajateltu tarkasteltavan ryhmän rakennetta kuvaaviksi luokittelijoiksi (syymuuttujiksi). Toiset muuttujat taas on ajateltu tulosmuuttujiksi (seurausmuuttujiksi), joiden jakaumaa tarkastellaan syymuuttujien luokissa.

Analyysissa muuttujien rakennetta pelkistetään ja joskus myös useampi muuttuja yhdistetään yhdeksi. Operaatioiden seurauksena laaja matriisi tiivistyy suppeammiksi tilastotaulukoiksi, joista yksittäisiä ominaisuuksia ja muuttujien välisiä suhteita on helpompi havaita.

Havaintoaineistosta voidaan usein havaita, että jotkut asiat esiintyvät yhtäaikaisesti. Esimerkiksi suuret tulot ja hyvä terveys esiintyvät usein yhdessä ja pieniin tuloihin liittyy usein huono terveys. Tällöin sanotaan, että muuttujat, esimerkiksi tulotaso ja terveys, korreloivat.

Asioiden yhtäaikaisesta esiintymisestä ei vielä voi päätellä, onko niiden välillä vaikutussuhteita. Vaikka kahden tekijän välillä olisi suora vaikutussuhde, ei ole itsestään selvää, kumpi on syy ja kumpi seuraus. Sitä paitsi korkea tulotaso ja hyvä terveys voivat selittyä jollakin kolmannella tekijällä, esimerkiksi koulutuksella. Analyysia on vietävä syvemmälle, liitettävä muihin havaintoihin ja teorioihin, jotta vaikutussuhteet voitaisiin todeta.

Analyysin avulla pyritään yleensä myös esittämään aineistossa esiintyviä suhteita mahdollisimman havainnollisessa muodossa. Useiden muuttujien kokoaminen suuremmiksi ryhmiksi tilastollisten analyysimenetelmien avulla auttaa ymmärtämään usein varsin epämääräisiä vaikutussuhteita. Vastaavasti on menetelmiä, joilla havainnot puhdistetaan satunnaisvaihtelusta, joka estää näkemästä suuria linjoja. Usein monimutkaiset vaikutussuhteet ovat selkeimmin esitettävissä graafisessa muodossa.

EsimerkitHarjoitukset

Jaa