
Tutkimusaineistot etäkäytössä
Esimerkki | 1 |
Taulukon suojauksen arviointi
Taulukossa 1 on taulukoitu tietyssä ammatissa toimivien henkilöiden lukumäärät alueittain ja tuloluokittain.
Taulukko 1. Eräässä ammatissa toimivat tuloluokittain ja alueittain.
ALUE | |||||
TULOLUOKKA | A | B | C | D | yhteensä |
1 | 0 | X1 | X2 | 0 | 25 |
2 | X3 | 0 | 0 | X4 | 15 |
3 | X5 | 0 | 0 | X6 | 30 |
4 | 0 | X7 | X8 | X9 | 30 |
yhteensä | 35 | 10 | 15 | 40 | 100 |
Suojaus on aiheuttanut kaikkien nollasta poikkeavien sisäsolujen peittämisen. Myös nollasoluja on saatettu joutua peittämään.
- Onko suojaus riittävä?
- Voidaanko taulukosta selvittää peitettyjen solujen arvoja?
- Olisiko joku muu taulukointi mielekkäämpi? Millainen?
Esimerkkiratkaisu:
Taulukko ei voi sisältää negatiivisia lukuja, sillä kyseessä on frekvenssitaulukko. Nollasolujen ei myöskään ole katsottu tarvitsevan suojausta, sillä niitä on taulukossa näkyvissä. Taulukon rivi- ja sarakesummista on pääteltävissä seuraavaa:
- X1 + X7 = 10 eli 0 ≤ X1 ≤ 10
- X2 + X8 = 15 eli 0 ≤ X2 ≤ 15
- Yhtälöstä X1+ X2 = 25 ja edellä määritellystä X2:n vaihteluvälistä voidaan päätellä X1 = 25 - X2 ≥ 25 - 15 = 10 eli X1 ≥ 10
- Koska X1 ≤ 10 ja X1 ≥ 10 niin täytyy olla X1 = 10.
Kun tiedetään että X1 = 10 voidaan päätellä arvot myös soluille X2 = 15, X7 = 0 ja X8 = 0. Koska 0 + X7 + X8 + X9 = 30 niin täytyy olla X9 = 30. Solujen X1, X2, X7, X8 ja X9 peittäminen on siis ollut turhaa, koska niiden arvot pystytään laskemaan tarkasti peittämisen jälkeenkin.
Huomioitavaa on myös, että jos oletetaan suojauksessa käytetyn pientä kynnysarvoa (alle 10) ensisijaisesti peitettävien solujen määrittelyyn, niin yksikään näistä soluista ei ole ensisijaisesti peitetty. Näiden tietojen avulla tapahtuu kuitenkin niin sanottu ryhmän paljastuminen. Ryhmän paljastumisella tarkoitetaan sitä, ettei yksikään taulukossa esiintyvä havainto yksilöidy, mutta tietystä yksilöitävissä olevasta ryhmästä paljastuu jokin ominaisuus.
Tämän taulukon tapauksessa paljastuu, että kaikki tarkasteltavat alueen B ja C henkilöt kuuluvat tuloluokkaan 1. Ryhmän paljastumista ei aina pidetä arkaluonteisena tai suojausta vaativana asiana ja sen huomioiminen yleensä vaikeuttaa suojauksen tekemistä.
Jäljelle jäävät peitetyt solut on esitetty taulukossa 2 alkuperäisen taulukon osataulukkona.
Taulukko 2. Eräässä ammatissa toimivat tuloluokittain ja alueittain, osataulukko.
ALUE | |||
TULOLUOKKA | A | D | yhteensä |
2 | X3 | X4 | 15 |
3 | X5 | X6 | 30 |
yhteensä | 35 | 10 | 45 |
Osataulukon rivi- ja sarakesummien avulla saadaan solujen X3 ja X5 arvoille seuraavat vaihteluvälit:
- 5 ≤ X3 ≤ 15
- 20 ≤ X5 ≤ 30
Jos tiedettäisiin, että suojaustarpeen määrittelyssä on käytetty kynnysarvoa 5 (tai pienempi), niin kumpikaan soluista X3 tai X5 ei olisi ensisijaisesti suojattava. Tällöin solun X4 tai X6 on oltava suojausta vaativa, jotta suojaukseen olisi ylipäätään ryhdytty. Taulukon avulla voidaan päätellä että kummankin solun arvo on korkeintaan 10, mutta tarkempia arvoja ei pystytä päättelemään.
Yhteenveto
Esimerkkivastaukset alkuperäisiin kysymyksiin yllä esitettyjen laskelmien ja pohdinnan perusteella olisivat seuraavat:
- Onko suojaus riittävä? On, mikäli suojausta ryhmän paljastumista vastaan ei katsota tarpeelliseksi.
- Voidaanko taulukosta selvittää peitettyjen solujen arvoja? Voidaan selvittää tarkasti X1, X2, X7, X8 ja X9. Muille soluille saadaan laskettua pelkät vaihteluvälit.
- Olisiko joku muu taulukointi mielekkäämpi? Millainen? Taulukosta voisi esittää vain reunajakaumat (yhteensä-sarakkeet), jolloin vältyttäisiin myös ryhmän paljastumiselta. Vaihtoehtoisesti voi pohtia toisenlaisia alue- ja tuloluokituksia. Taulukon mielekkyyteen vaikuttaa vahvasti taulukon käyttötarkoitus (jota tässä ei oltu eritelty tarkemmin).
Edellä mainittujen vastausten lisäksi esimerkistä opitaan seuraavat asiat:
- Mikäli suojausmenetelmänä käytetään peittämistä, tulee toissijaisten solujen valinta tehdä huolellisesti ylipeittämisen (ts. tiedon turhan suojaamisen) välttämiseksi.
-
Kynnysarvosäännön numeerisen arvon paljastaminen voi auttaa suojauksen purkamisessa.
- Toisaalta jos suojaus on hyvin toteutettu, ei kynnysarvon tietäminen silti välttämättä johda tarkkojen solufrekvenssien paljastumiseen. Tässä esimerkissäkin numeerisia vaihtoehtoja solufrekvensseille X3, X4, X5 ja X6 olisi useita, vaikka käytetty kynnysarvo tiedettäisiinkin.
- Toisaalta mahdollisten herkkien solujen paikat taulukossa voidaan päätellä (osittain), mikäli kynnysarvo tiedetään.
- Ryhmän paljastuminen tilastosta on vaikeampi estää kuin yksittäisen havainnon paljastuminen. Ryhmän paljastuminen voi teoriassa tapahtua aina, kun taulukossa on nollasoluja.