Tutkimusaineistot etäkäytössä

Oppitunti:
Aihe:
Harjoitukset 1 2

Tulosteen tietosuojan arviointi 1Lamppu-symboli

Tutkija on tehnyt aineistonsa pohjalta alla olevat taulukot ja suunnittelee niiden lähettämistä tarkastukseen.

Taulukko 1. Tuettujen yritysten lukumäärät ja tuen määrät maakunnittain

  Maakunta  
Vuosi A B C D E F-S Koko maa
2001 21 2 5 9 5 396 438
2002 8 1 6 9 3 460 487
2003 18 2 10 10 1 592 633
2004 17 3 6 7 7 559 599
2005 15 1 6 12 9 560 603

Taulukko 2. Tuen määrä (1 000 euroa)

  Maakunta  
Vuosi A B C D E F-S Koko maa
2001 3552 183 1317 2016 355 120124 127547
2002 855 580 650 761 307 145460 148613
2003 2623 125 851 1577 15 146335 151526
2004 3508 153 476 1315 275 158581 164308
2005 1928 15 653 1467 1247 174478 179788
  • Täyttävätkö taulukot tarkastukseen lähetettävien tulosteiden tietosuojavaatimukset?
  • Millaisia tietosuojariskejä taulukoihin sisältyy?
  • Mikäli taulukot eivät täytä kaikkia tietosuojavaatimuksia, niin kuinka niitä tulisi muokata tietosuojan parantamiseksi?

Vastaus:

Lukumäärätaulukossa on näkyvissä pieniä solufrekvenssejä, joten taulukot eivät tulisi pääsemään tarkastuksesta läpi. Esimerkiksi maakunnassa B oli vuonna 2005 vain yksi tukea saanut yritys. On olemassa riski, että jonkin muun (julkisen) lähteen avulla kyseinen yritys on tunnistettavissa ja tällöin selviäisi myös tuen määrä. Lisäksi tutkija voi tuottaa samasta aineistosta lisätaulukoita, joiden tietoja yhdistelemällä myös tukea saaneet yritykset voivat paljastua.

Taulukoista ei käy ilmi, onko kyse rajatusta yritysjoukosta (esim. tietyn toimialan yritykset) vai kaikista Suomessa toimivista yrityksistä. Toimialatieto (yhdistettynä aluetietoon) voi merkittävästi nostaa yrityksen paljastumisriskiä, joten tarkastaja voi hylätä taulukot jo puutteellisen dokumentoinnin takia.

Taulukoiden tietosuojaa voisi parantaa yhdistelemällä maakuntia tai peittämällä pienet solufrekvenssit. Peittämisessä tulisi kuitenkin huomioida myös toissijaisen peittämisen tarve, sillä mikäli esimerkiksi vuonna 2002 vain maakunnan B yritysten lukumäärätieto peitettäisiin, voitaisiin se laskea auki vähentämällä muiden maakuntien lukumäärät koko maan summatiedosta.


Takaisin oppimateriaaliin