
Tutkimusaineistot etäkäytössä
Harjoitukset | 1 | 2 |
Tulosteen tietosuojan arviointi 1
Tutkija on tehnyt aineistonsa pohjalta alla olevat taulukot ja suunnittelee niiden lähettämistä tarkastukseen.
Taulukko 1. Tuettujen yritysten lukumäärät ja tuen määrät maakunnittain
Maakunta | |||||||
Vuosi | A | B | C | D | E | F-S | Koko maa |
2001 | 21 | 2 | 5 | 9 | 5 | 396 | 438 |
2002 | 8 | 1 | 6 | 9 | 3 | 460 | 487 |
2003 | 18 | 2 | 10 | 10 | 1 | 592 | 633 |
2004 | 17 | 3 | 6 | 7 | 7 | 559 | 599 |
2005 | 15 | 1 | 6 | 12 | 9 | 560 | 603 |
Taulukko 2. Tuen määrä (1 000 euroa)
Maakunta | |||||||
Vuosi | A | B | C | D | E | F-S | Koko maa |
2001 | 3552 | 183 | 1317 | 2016 | 355 | 120124 | 127547 |
2002 | 855 | 580 | 650 | 761 | 307 | 145460 | 148613 |
2003 | 2623 | 125 | 851 | 1577 | 15 | 146335 | 151526 |
2004 | 3508 | 153 | 476 | 1315 | 275 | 158581 | 164308 |
2005 | 1928 | 15 | 653 | 1467 | 1247 | 174478 | 179788 |
- Täyttävätkö taulukot tarkastukseen lähetettävien tulosteiden tietosuojavaatimukset?
- Millaisia tietosuojariskejä taulukoihin sisältyy?
- Mikäli taulukot eivät täytä kaikkia tietosuojavaatimuksia, niin kuinka niitä tulisi muokata tietosuojan parantamiseksi?
Vastaus:
Lukumäärätaulukossa on näkyvissä pieniä solufrekvenssejä, joten taulukot eivät tulisi pääsemään tarkastuksesta läpi. Esimerkiksi maakunnassa B oli vuonna 2005 vain yksi tukea saanut yritys. On olemassa riski, että jonkin muun (julkisen) lähteen avulla kyseinen yritys on tunnistettavissa ja tällöin selviäisi myös tuen määrä. Lisäksi tutkija voi tuottaa samasta aineistosta lisätaulukoita, joiden tietoja yhdistelemällä myös tukea saaneet yritykset voivat paljastua.
Taulukoista ei käy ilmi, onko kyse rajatusta yritysjoukosta (esim. tietyn toimialan yritykset) vai kaikista Suomessa toimivista yrityksistä. Toimialatieto (yhdistettynä aluetietoon) voi merkittävästi nostaa yrityksen paljastumisriskiä, joten tarkastaja voi hylätä taulukot jo puutteellisen dokumentoinnin takia.
Taulukoiden tietosuojaa voisi parantaa yhdistelemällä maakuntia tai peittämällä pienet solufrekvenssit. Peittämisessä tulisi kuitenkin huomioida myös toissijaisen peittämisen tarve, sillä mikäli esimerkiksi vuonna 2002 vain maakunnan B yritysten lukumäärätieto peitettäisiin, voitaisiin se laskea auki vähentämällä muiden maakuntien lukumäärät koko maan summatiedosta.
Takaisin oppimateriaaliin