Tutkimusaineistot etäkäytössä

Oppitunti:
Aihe:
Esimerkki 1

Tulosteiden tietosuojan tarkistaminen

Tutkija on tehnyt alla olevat kolme taulukkoa, joista käy ilmi hammaslääkärien lukumääriä alueilla A ja B luokiteltuna sukupuolen ja sen mukaan, onko henkilöllä rikosrekisteri vai ei. Hammaslääkäreitä on tarkasteltavilla alueilla yhteensä 68 kappaletta.

Taulukko 1. Sukupuoli x alue

  Alue A Alue B Yhteensä
Naisia 21 12 33
Miehiä 16 19 35
Yhteensä 37 31 68

Taulukko 2. Sukupuoli x rikosrekisteri (on/ei)

(Rikosrekisteri) On Ei Yhteensä
Naisia 23 10 33
Miehiä 8 27 35
Yhteensä 31 37 68

Taulukko 3. Alue x rikosrekisteri (on/ei)

(Rikosrekisteri) On Ei Yhteensä
Alue A 11 26 37
Alue B 20 11 31
Yhteensä 31 37 68
  • Läpäisisivätkö yllä olevat taulukot tietosuojatarkastuksen?
  • Onko tietosuojan kannalta merkitystä sillä, lähettääkö tarkastukseen oheiset kaksiulotteiset taulukot vai yhden kolmiulotteisen (alue x sukupuoli x rikosrekisteri) taulukon?

Ratkaisu:

Tällä esimerkillä halutaan osoittaa, miksi samasta populaatiosta tuotetut, osittain samoja muuttujia ja reunajakaumia sisältävät taulukot, eli ns. linkittyneet taulukot saattavat sisältää vaikeasti havaittavia tietosuojariskejä.

Yllä olevien linkittyneiden taulukoiden muuttujista saisi koottua seuraavan "kolmiulotteisen" taulukon (alue x sukupuoli x rikosrekisteri):

Taulukko 4. Alue x sukupuoli x rikosrekisteri

    Alue  
Rikosrekisteri Sukupuoli A B yhteensä
On Miehet X X 8
Naiset X X 23
Molemmat 11 20 31
Ei Miehet X X 27
Naiset X X 10
Molemmat 26 11 37
yhteensä Miehet 16 19 35
Naiset 21 12 33
Molemmat 37 31 68

Yllä olevia linkittyneitä taulukoita (tai kolmiulotteista taulukkoa) katsomalla huomataan seuraavat asiat:

  • Alueella B on yhteensä 20 hammaslääkäriä, joilla on rikosrekisteri (taulukko 3).
  • Alueella B on naishammaslääkäreitä yhteensä 12 (taulukko 1), eli vaikka kaikilla näistä naisista olisi rikosrekisteri, niin vähintään kahdeksalla alueen B mieshammaslääkärillä on myös oltava rikosrekisteri.
  • Mieshammaslääkäreistä (molemmilla alueilla yhteensä) rikosrekisteri on vain kahdeksalla (taulukko 2). Tästä voidaan päätellä, että kaikki rikosrekisterin omistavat mieshammaslääkärit ovat alueella B.

Taulukko 5. Alue x sukupuoli x rikosrekisteri, osa peitetyistä soluarvoista laskettu

    Alue  
Rikosrekisteri Sukupuoli A B yhteensä
On Miehet 0 8 8
Naiset X X 23
Molemmat 11 20 31
Ei Miehet X X 27
Naiset X X 10
Molemmat 26 11 37
yhteensä Miehet 16 19 35
Naiset 21 12 33
Molemmat 37 31 68

Näiden tietojen avulla pystytään helposti laskemaan myös loput kolmiulotteisen taulukon solujen arvot.

Taulukko 6. Alue x sukupuoli x rikosrekisteri, kaikki peitetyt soluarvot laskettu

    Alue  
Rikosrekisteri Sukupuoli A B yhteensä
On Miehet 0 8 8
Naiset 11 12 23
Molemmat 11 20 31
Ei Miehet 16 11 27
Naiset 10 0 10
Molemmat 26 11 37
yhteensä Miehet 16 19 35
Naiset 21 12 33
Molemmat 37 31 68

Yllä olevasta taulukosta paljastuvat seuraavat arkaluonteiset tiedot:

  • kaikilla alueen B naishammaslääkäreillä on rikosrekisteri ja
  • kaikki mieshammaslääkärit, joilla on rikosrekisteri ovat alueella B.

Tietosuojariskien havaitsemiseksi tutkijan tulisi linkittyneiden taulukoiden sijaan suosia kaikki halutut muuttujat sisältäviä moniulotteisia taulukoita.

Takaisin oppimateriaaliin