Tutkimusaineistot etäkäytössä

Oppitunti:
Aihe:

3.3.1 Paljastuminen taulukkoaineistosta

Taulukkoaineistosta paljastuminen tarkoittaa mahdollisuutta määritellä yksikön identiteetti tai jokin ominaisuus tarkemmin kuin ilman taulukon julkaisemista. Paljastuminen voi olla joko tarkkaa tai likimääräistä.

Määrätaulukoissa paljastuminen tarkoittaa yleisimmin sitä, että tietyn tilastoyksikön taulukoitavan muuttujan arvo pystytään estimoimaan liian tarkasti taulukon lukujen ja rakenteen avulla. Varsinkin yritysaineistojen kohdalla likimääräinen paljastuminen voi olla aivan yhtä haitallista kuin tarkka paljastuminen.

Taulukon suojausprosessi on kaksivaiheinen. Ensimmäisessä vaiheessa arvioidaan taulukon suojaustarve, eli tunnistetaan paljastumisriskissä olevat herkät solut valitun herkkyyssäännön avulla.

Yleisimmät herkkyyssäännöt ovat

  • kynnysarvosääntö, jonka mukaan solu on herkkä, mikäli siihen kuuluu vähemmän kuin ennalta määrätyn kynnysarvon verran tilastoyksiköitä.
  • dominanssisääntö eli (n,k)-sääntö, jonka mukaan solu on herkkä, mikäli sen n suurinta tilastoyksikköä muodostavat vähintään k prosenttia solun kokonaisarvosta.

Frekvenssitaulukossa solu on herkkä, jos siihen kuuluu vain vähän tilastoyksiköitä, eli toisin sanoen soluun liittyvä luokittelevien muuttujien arvokombinaatio on harvinainen. Tällaiset pienen solufrekvenssin takia herkäksi määriteltävät solut määritellään kynnysarvosäännön avulla (ks. Esimerkki 1).

Kynnysarvon käyttö on suositeltavaa, kun ainoastaan tarkalta paljastumiselta (esim. henkilö voidaan tarkasti identifioida) suojaaminen katsotaan riittäväksi.

Määrätaulukossa solu voidaan määritellä herkäksi myös, jos yksi tai muutama yksikkö dominoi solun arvoa, eli on arvoltaan selvästi suurempi muihin yksiköihin verrattuna. Tällöin voi olla mahdollista estimoida dominoivien yksiköiden arvot liian tarkasti (vaikkei välttämättä aivan tarkasti). Liian tarkalta estimoinnilta suojaaminen tarkoittaa likimääräiseltä paljastumiselta suojaamista ja se voidaan toteuttaa käyttämällä dominanssisääntöä suojattavien solujen määrittelyyn (ks. Esimerkki 2 ja Esimerkki 3).

Useampaa herkkyyssääntöjä voidaan käyttää rinnakkain. Tällöin solu on herkkä, jos se yhdenkin käytetyn herkkyyssäännön mukaan on herkkä.

Herkkyyssääntöjen soveltamista voi testata alla olevien esimerkkien ja harjoitusten avulla.

EsimerkitHarjoitukset

Jaa