
Johdatus tilastotieteeseen
2.1.5 Estimointi
Estimoinnissa tavoitteena on esittää arvioita perusjoukon ominaisuudesta, kuten keskiarvosta, otoksen avulla. Esimerkiksi työttömyyttä tutkitaan haastattelemalla noin 12 000 ihmistä ja siitä tuloksesta estimoidaan koko väestön työttömyysaste.
Perusjoukon tuntematonta ominaisuutta kutsutaan parametriksi. Sen numeerinen arvio lasketaan otoksesta. Laskentaan käytettyä kaavaa, kuten keskiarvon kaavaa, kutsutaan estimaattoriksi ja otoksen havainnoista kaavalla laskettua arvoa kutsutaan estimaatiksi. Esimerkiksi Suomen väestön todellinen työttömyysaste on parametri, jota ei tunneta. Otokseen valituilta henkilöiltä kysytään tietoja, joiden perusteella osa heistä päätellään työttömiksi. Lisäksi päätellään, ketkä kuuluvat työvoimaan. Yksinkertaisimmassa tapauksessa työttömyysasteen estimaattori on otoksessa olevien työttömien lukumäärä jaettuna työvoimaan kuuluvien lukumäärällä. Tämän suhteen arvo käsillä olevassa otoksessa on työttömyysasteen estimaatti.
Estimaattien tahdotaan olevan mahdollisimman lähellä parametria. Estimaattorin virhe on estimaattorin ja todellisen parametrin erotus. Virheiden pitäisi olla lähellä nollaa. Estimaattorin teoreettisia ominaisuuksia voidaan tutkia kokeellisesti esimerkiksi käyttämällä perusjoukkona aineistoa, jonka kaikkien henkilöiden tiedot tunnetaan. Tästä perusjoukosta poimitaan useita otoksia peräkkäin ("otoksien lista"). Eri otoksiin tulee satunnaisotannassa eri henkilöitä, joten eri otoksista saadaan erilaisia estimaatteja. Otoksien listasta muodostetaan tällä tavalla estimaattien lista.
Estimaattorin harha kuvaa virheiden keskiarvoa yllä kuvatussa estimaattien listassa. Jos harha on nolla, estimaattoria sanotaan harhattomaksi. Harhaton estimaattori on tavallaan puolueeton, eikä tuota keskimäärin liian pieniä tai liian suuria estimaatteja. Esimerkki 1 esittelee estimaattorin täsmällisyyden ja tarkkuuden käsitteet.
Parametrin estimaatin lisäksi usein lasketaan myös luottamusväli, jonka toivotaan sisältävän parametrin. Parametrin esitetään esimerkiksi olevan "todennäköisesti" luottamusvälillä 39,03–40,97 %, jonka keskipiste on estimaatti (tässä 40 %). Luottamusväli on virheellinen, jos parametri onkin todellisuudessa sen ulkopuolella.
Luottamusvälin pituutta kuvaa virhemarginaali, etäisyys estimaatista luottamusvälin rajalle (tässä 0,97). Esimerkki realistisesta virhemarginaalista on 3 700 työttömien lukumäärän estimaatille 10 000.
Virheen riskiä kuvataan luottamustasolla. Esimerkiksi 95 % luottamustasolla virheen teoreettinen riski on 5 %.
Luottamustason tulkintaa kuvataan tarkemmin esimerkissä 2.
Virhemarginaali riippuu luottamustasosta: suurella luottamustasolla virhemarginaali on suurempi kuin pienellä luottamustasolla (esimerkki 3).
Aiheen 2.2.2 esimerkissä 1 esitellään käsite Virhemarginaali suuntaansa ja esimerkissä 2 nähdään, että virhemarginaali riippuu myös otoskoosta.
EsimerkitHarjoituksetJaa