
Tutkimusaineistot etäkäytössä
3.4.1 Tulosteiden tietosuojavaatimukset
Frekvenssi- ja määrätaulukot
Tutkijan julkaisemien tulosteiden tulee noudattaa tietosuojan osalta Tilastokeskuksen linjauksia taulukkomuotoisten tietojen suojaamisesta (Tutkijapalveluiden säännöt ja ohjeet, liite A).
Pääsääntönä yritystietojen suojaamisessa on, että kussakin solussa tai ryhmässä on oltava aina vähintään 3 (painottamatonta) havaintoa. Kynnysarvosäännön rinnalla tulee soveltaa dominanssisääntöä (1,75) tuoreissa yritystiedoissa (15 kk viiteajankohdasta). Toimipaikkatason tietoja suojatessa on varmistettava myös yritystason suojaus, eli kussakin solussa on oltava toimipaikkoja vähintään kolmesta eri yrityksestä. Samoin konsernitason suojaus on otettava huomioon yritysaineistoissa, joissa on tietoja konsernisuhteista.
Henkilötietojen suojaamisessa noudatetaan solukohtaista kynnysarvoa 3 ja kiinnitetään erityistä huomiota taulukoitavien muuttujien arkaluonteisuuteen. Yhdistetyissä työntekijä–työnantaja-aineistoissa on suojattava sekä henkilö- että yritystaso, eli kussakin taulukon solussa on oltava työntekijöitä vähintään kolmesta eri yrityksestä. Taulukkomuotoisissa yritystilastoissa esiintyviin ammatinharjoittajatietoihin sovelletaan samoja suojauskäytäntöjä kuin muihinkin yritystietoihin.
Erilaiset jakaumatunnusluvut
Maksimi ja minimi liittyvät yleensä yhteen havaintoon. Jos tämä havainto on mahdollista tunnistaa, ei maksimia tai minimiä voi julkaista.
Jakaumapisteet (pl. minimi ja maksimi) muodostavat erikoistapauksen taulukosta, jossa solufrekvenssejä vastaavat jakaumapisteiden väliin jäävien havaintojen lukumäärät. Mikäli nämä lukumäärät ylittävät kynnysarvon 3, voidaan jakaumapisteet julkaista.
Moodi voidaan julkaista, mikäli (lähes) kaikki havainnot eivät saa samaa arvoa.
Keskiarvo, muut suhdeluvut ja jakaumatunnuslukujen korkeammat momentit (esim. varianssi) voidaan julkaista, mikäli niiden laskennassa on käytetty vähintään kolmea havaintoa.
Muut numeeriset tulostetyypit
Indeksipisteluvut, korrelaatiokertoimet ja testisuureet (t, F, X2, yms.) voidaan yleensä julkaista, mikäli laskennassa on käytetty tarpeeksi (vähintään 10) havaintoja.
Regressiomallin kokonaisuudessaan voi julkaista, mikäli mallin taustalla on riittävästi havaintoja ja malli ei kuvaa aikasarjaa yhteen yritykseen/henkilöön perustuvista havainnoista. Mallin yksittäisiä kertoimia voidaan yleensä aina julkaista.
Kuvat
Aineistoista piirretyt kuvat ovat sallittuja, jos yksittäinen kuvapiste ei voi paljastaa sen taustalla olevaa yksittäistä havaintoa. Kuvat viedään tarkistettavaksi taulukoiden tapaan selkeästi ja täsmällisesti dokumentoituna. Tarkistettavaksi soveltuvia kuvaformaatteja ovat esimerkiksi PNG, BMP, JPEG, TIFF, EPS, PS, PDF, SVG ja WMF/EMF.
Pylväsdiagrammit ja muut luokitellun aineiston esittämiseen käytetyt kuvat ovat tyypillisesti sallittuja julkaistaviksi, kunhan kussakin luokassa on riittävästi havaintoja.
Jakaumakuvat sisältävät toisinaan poikkeavia havaintoja tai ääriarvoja, jotka voivat paljastaa havaintoyksikön tietoja. Tasoitetut tai riittävän karkealla asteikolla esitetyt jakaumat, histogrammit ja kertymäfunktiot ovat sallittuja.
Hajontakuvia käytetään tyypillisesti kahden jatkuvan muuttujan arvojen esittämiseen, jonka vuoksi se on tietosuojan kannalta edellisiä kuvaajia hankalampi. Hajontakuvien kohdalla tulee kiinnittää erityistä huomiota aineiston luonteeseen mm. otoksen koon, tiedon arkaluonteisuuden ja poikkeavien havaintojen esiintymisen kannalta.
Alla olevat esimerkki ja harjoitukset antavat muutaman käytännön vihjeen siitä, millaisia tulosteita kannattaa ja millaisia ei kannata lähettää tarkistukseen.
EsimerkitHarjoituksetJaa