Johdatus tilastotieteeseen

Oppitunti:
Aihe:

4.4 Ristiintaulukoinnista

Ristiintaulukoinnilla kuvataan, miten kahden muuttujan luokat jakautuvat. Riippuvuus ristiintaulukoinnissa tarkoittaa esimerkiksi sitä, että sukupuoli-muuttujan luokassa mies muuttujan y yleisin arvo on y=1, mutta luokassa nainen yleisin arvo on y=2.

Taulukko. Täydellinen riippuvuus ristiintaulukoinnissa

Muuttuja y
Sukupuoli 1 2
mies 100 0
nainen 0 100


Ristiintaulukointi sopii riippuvuuden arviointiin, silloin kun käytetään luokitteluasteikkoa ja Spearmanin järjestyskorrelaatiokerrointa ei voi laskea. Jos muuttujat ovat välimatka- tai suhdelukuasteikolla, niiden arvoja voidaan luokitella. Sen jälkeen tarkastellaan esimerkiksi ikäluokkien ja ammattiluokan riippuvuutta.

Ristiintaulukoinnissa solufrekvenssi on niiden havaintojen lukumäärä, jotka kuuluvat sekä rivimuuttujan vastaavaan luokkaan että sarakemuuttujan vastaavaan luokkaan. Riippuvuutta ristiintaulukoinnissa mitataan vertaamalla havaittuja solufrekvenssejä sellaisiin odotettuihin frekvensseihin, jotka lasketaan olettaen, että muuttujat ovat riippumattomia. Jos jotkin havaitut frekvenssit ovat selvästi suurempia tai pienempiä kuin odotetut frekvenssit, muuttujilla on riippuvuutta. 

Vertailu tehdään esimerkiksi khi-neliötestillä: kun havaittu frekvenssi on Oi  ja odotettu frekvenssi Ei ,  niin niin testisuuretta merkitään kreikkalaislla khi-kirjaimella ja sen arvo lasketaan seuraavalla kaavalla:

Esimerkit

Jaa