På svenska

In English

Tutkimusaineistot etäkäytössä

Oppitunti:
Aihe:
Harjoitukset 1

Taulukon suojauksen arviointiLamppu-symboli

Yritysten avoimia työpaikkoja tilastoidaan otostutkimusaineiston avulla. Tuloksia taulukoitaessa huomataan, ettei monissa yrityksissä ole ollenkaan avoimia työpaikkoja. Julkaistavaa taulukkoa valmisteleva henkilö on kuitenkin huolissaan ryhmän ominaisuuksien paljastumisesta[1] ja päättää peittää kaikki nollasolut ensisijaisesti ja toissijaisesti peitettävien[2] solujen lisäksi. Tuloksena on alla oleva taulukko.

  • Onko tietosuoja otettu riittävästi huomioon?
  • Onko suojaus mielekäs? Onko kyseinen taulukko hyväksyttävissä julkaistavaksi?

Taulukko. Avointen työpaikkojen lukumäärät hakijan koulutusasteen ja yrityksen kokoluokan mukaan luokiteltuna.

  Yrityksen kokoluokka  
Hakijan koulutusaste A B C D E yhteensä
peruskoulu 23 X X X 22 50
keskiaste X X X X X 12
korkeakoulu X X X X X 38
yhteensä 23 34 X X 24 100

[1] Ryhmän ominaisuuden paljastumisella tarkoitetaan sitä, ettei yksikään taulukossa esiintyvä havainto yksilöidy, mutta tietystä yksilöitävissä olevasta ryhmästä paljastuu jokin ominaisuus. Ryhmän paljastuminen seuraa, kun havainnot ovat keskittyneet taulukossa vain muutamaan luokkaan ts. taulukko sisältää paljon tyhjiä soluja.

Vastaus:

Taulukosta ei pystytä näkemään edes muuttujien reunajakaumia kokonaisuudessaan (”yhteensä”-rivi ja -sarake). Voisi olla hyödyllisempää julkaista reunajakaumat omina, yksiulotteisina taulukoinaan.

Peittämisen sijaan voisi myös miettiä luokituksen muuttamista. Yhdistämällä yritysten kokoluokkia saataisiin todennäköisesti julkaistua enemmän lukuja. Esimerkiksi luokat C ja D tai ainakin toinen niistä sisältävää vain vähän jos ollenkaan havaintoja, sillä ne on peitetty. Niiden yhdistäminen saattaisi parantaa taulukon informatiivisuutta.

Suojaus on tehty pitkälti ”varman päälle” -asenteella. Otostutkimuksessa ei välttämättä ole aiheellista tehdä suojausta ryhmän ominaisuuden paljastumista vastaan, sillä vaikkei otos sisälläkään havaintoja kaikista luokista, voi perusjoukko sisältää. Tehtävässä ei mainita asetelmapainojen käytöstä, mutta yleisesti suojauksen kannalta on väliä julkaistaanko painottamattomia vai painotettuja lukuja.

Suojauksen ”varman päälle” -asenteesta huolimatta sarakkeen A kaksi peitettyä solua voidaan sarakesumman avulla päätellä olevan nollia. Nämä solut on siis suojattu turhaan.


Takaisin oppimateriaaliin

Jaa