
Tutkimusaineistot etäkäytössä
Esimerkki | 1 |
Tulosteiden tietosuojan tarkistaminen
Tutkija on tehnyt alla olevat kolme taulukkoa, joista käy ilmi hammaslääkärien lukumääriä alueilla A ja B luokiteltuna sukupuolen ja sen mukaan, onko henkilöllä rikosrekisteri vai ei. Hammaslääkäreitä on tarkasteltavilla alueilla yhteensä 68 kappaletta.
Taulukko 1. Sukupuoli x alue
Alue A | Alue B | Yhteensä | |
Naisia | 21 | 12 | 33 |
Miehiä | 16 | 19 | 35 |
Yhteensä | 37 | 31 | 68 |
Taulukko 2. Sukupuoli x rikosrekisteri (on/ei)
(Rikosrekisteri) | On | Ei | Yhteensä |
Naisia | 23 | 10 | 33 |
Miehiä | 8 | 27 | 35 |
Yhteensä | 31 | 37 | 68 |
Taulukko 3. Alue x rikosrekisteri (on/ei)
(Rikosrekisteri) | On | Ei | Yhteensä |
Alue A | 11 | 26 | 37 |
Alue B | 20 | 11 | 31 |
Yhteensä | 31 | 37 | 68 |
- Läpäisisivätkö yllä olevat taulukot tietosuojatarkastuksen?
- Onko tietosuojan kannalta merkitystä sillä, lähettääkö tarkastukseen oheiset kaksiulotteiset taulukot vai yhden kolmiulotteisen (alue x sukupuoli x rikosrekisteri) taulukon?
Ratkaisu:
Tällä esimerkillä halutaan osoittaa, miksi samasta populaatiosta tuotetut, osittain samoja muuttujia ja reunajakaumia sisältävät taulukot, eli ns. linkittyneet taulukot saattavat sisältää vaikeasti havaittavia tietosuojariskejä.
Yllä olevien linkittyneiden taulukoiden muuttujista saisi koottua seuraavan "kolmiulotteisen" taulukon (alue x sukupuoli x rikosrekisteri):
Taulukko 4. Alue x sukupuoli x rikosrekisteri
Alue | ||||
Rikosrekisteri | Sukupuoli | A | B | yhteensä |
On | Miehet | X | X | 8 |
Naiset | X | X | 23 | |
Molemmat | 11 | 20 | 31 | |
Ei | Miehet | X | X | 27 |
Naiset | X | X | 10 | |
Molemmat | 26 | 11 | 37 | |
yhteensä | Miehet | 16 | 19 | 35 |
Naiset | 21 | 12 | 33 | |
Molemmat | 37 | 31 | 68 |
Yllä olevia linkittyneitä taulukoita (tai kolmiulotteista taulukkoa) katsomalla huomataan seuraavat asiat:
- Alueella B on yhteensä 20 hammaslääkäriä, joilla on rikosrekisteri (taulukko 3).
- Alueella B on naishammaslääkäreitä yhteensä 12 (taulukko 1), eli vaikka kaikilla näistä naisista olisi rikosrekisteri, niin vähintään kahdeksalla alueen B mieshammaslääkärillä on myös oltava rikosrekisteri.
- Mieshammaslääkäreistä (molemmilla alueilla yhteensä) rikosrekisteri on vain kahdeksalla (taulukko 2). Tästä voidaan päätellä, että kaikki rikosrekisterin omistavat mieshammaslääkärit ovat alueella B.
Taulukko 5. Alue x sukupuoli x rikosrekisteri, osa peitetyistä soluarvoista laskettu
Alue | ||||
Rikosrekisteri | Sukupuoli | A | B | yhteensä |
On | Miehet | 0 | 8 | 8 |
Naiset | X | X | 23 | |
Molemmat | 11 | 20 | 31 | |
Ei | Miehet | X | X | 27 |
Naiset | X | X | 10 | |
Molemmat | 26 | 11 | 37 | |
yhteensä | Miehet | 16 | 19 | 35 |
Naiset | 21 | 12 | 33 | |
Molemmat | 37 | 31 | 68 |
Näiden tietojen avulla pystytään helposti laskemaan myös loput kolmiulotteisen taulukon solujen arvot.
Taulukko 6. Alue x sukupuoli x rikosrekisteri, kaikki peitetyt soluarvot laskettu
Alue | ||||
Rikosrekisteri | Sukupuoli | A | B | yhteensä |
On | Miehet | 0 | 8 | 8 |
Naiset | 11 | 12 | 23 | |
Molemmat | 11 | 20 | 31 | |
Ei | Miehet | 16 | 11 | 27 |
Naiset | 10 | 0 | 10 | |
Molemmat | 26 | 11 | 37 | |
yhteensä | Miehet | 16 | 19 | 35 |
Naiset | 21 | 12 | 33 | |
Molemmat | 37 | 31 | 68 |
Yllä olevasta taulukosta paljastuvat seuraavat arkaluonteiset tiedot:
- kaikilla alueen B naishammaslääkäreillä on rikosrekisteri ja
- kaikki mieshammaslääkärit, joilla on rikosrekisteri ovat alueella B.
Tietosuojariskien havaitsemiseksi tutkijan tulisi linkittyneiden taulukoiden sijaan suosia kaikki halutut muuttujat sisältäviä moniulotteisia taulukoita.
Takaisin oppimateriaaliin