
Tilastojen ABC
3.4 Tiedon muokkaus
Aineiston epätäydellisyyttä pyritään korjaamaan painottamalla aineistoa tai arvioimalla puuttuvia tietoja. Painotettaessa erityyppisille havainnoille annetaan erilaisia painokertoimia. Jos esimerkiksi yli 64-vuotiaiden naisten vastauksista on jäänyt saamatta keskimääräistä useampi, voidaan saaduille vastauksille antaa painokerroin, joka nostaa niiden merkitystä aineistossa. Puuttuvien tietojen arvioinnin yhteydessä puhutaan myös imputoinnista. Se tarkoittaa, että muiden tietolähteiden ja muiden saman havaintoaineiston tietojen perusteella tuotetaan havainnolle arvo. Esimerkiksi yrityksen taloustietoja voidaan arvioida verotustietojen perusteella.
Yksittäisiä virheitä pyritään etsimään tarkastelemalla vastausten jakaumia. Jos joku havainto poikkeaa paljon muista havainnoista, voi olla perusteltua epäillä virhettä, joka vaikuttaa voimakkaasti aineistosta laskettaviin tunnuslukuihin. Sitä kannattaa tutkia, ja jos virhe tunnistetaan, korjata. Virheiden etsintää ja korjaamista kutsutaan editoinniksi.
Aineiston muokkaus ei ole vain virheiden korjailua. Hyvin usein tilastollisissa tutkimuksissa tutkitaan asioita, joita ei voi suoraan kysyä vastaajilta. On kysyttävä useita kysymyksiä, jotta haluttu asia saadaan selville riittävän yksiselitteisesti. Useiden kysymysten avulla päätellään sitten tutkittu asia, esimerkiksi onko tietoja antava henkilö Kansainvälisen työjärjestön määritelmän mukaisesti työtön. Joskus halutaan koota eri mittareiden tietoja yhteen indikaattoreiksi tai indekseiksi, joiden ajatellaan kertovan jostakin yleisemmästä asiasta. Asennetutkimuksissa käytetään usein pitkiä kysymyspattereita, joiden yhdistelyn avulla pyritään selvittämään yleisiä asennoitumistyyppejä.
Usein saatuja havaintoja on myös luokiteltava, jotta niitä voidaan käsitellä tilastollisesti. Joskus asiat kysytään avoimella kysymyksellä ja vasta, kun on nähty miten ihmiset vastaavat, osataan vastaukset luokitella yhtenäisiin ryhmiin.
EsimerkitJaa