En dan nu: een streepje privacy

on

“Omwille van privacy-wetgeving kan het streepje “-” zowel 1, 2 als 3 personen betekenen.” Dat schrijft de VDAB bij de werkloosheidsstatistieken op haar data-website wanneer het aantal werkzoekenden in de tabellen zo klein is dat deze personen dreigen identificeerbaar te worden. Maar die privacy-maatregel is veel minder waterdicht dan dat de VDAB laat uitschijnen.

Een simpel voorbeeldje voor de Mechelse werkloosheidsstatistieken van vorige maand: toen waren er in onze stad in totaal 18 mensen van Roemeense origine werkzoekend. Wanneer we hen indelen volgens hun werkloosheidsduur ziet dat er uit als volgt:

< 1 jaar 1 tot 2 jaar >= 2 jaar Totaal
11 6 18

Aantal werkzoekenden van Roemeense origine volgens hun werkloosheidsduur. (Bron data: arvastat.vdab.be)

Met een simpel streepje geeft de VDAB aan dat er vorige maand in Mechelen 1, 2 ofwel 3 personen met Roemeense roots minstens al 2 jaar lang werkzoekend zijn.

Omwille van privacy-wetgeving kan het streepje “-” zowel 1, 2 als 3 personen betekenen.

bron: Arvastat.vdab.be

Doordat het totaal aantal werkzoekenden van Roemeense origine gelijk is aan 18 – dat staat netjes in de tabel vermeld –  is het rekensommetje wel erg snel gemaakt…

18 = 11 + 6 + x

Met simpele algebra ontcijfer je wel erg gemakkelijk de identiteit van Mechelse werkzoekenden.

Sudoku

Ook bij tabellen die op het eerste zicht wel “privacy-proof” zijn, vallen de aantallen achter het streepje (“-“) geregeld te achterhalen. Gewoon door andere variabelen met elkaar te kruisen.

Een nieuw Mechels voorbeeldje? Onze Dijlestad kende de voorbije maand 16 werkzoekenden van Chinese origine. Gecombineerd met de werkloosheidsduur krijgen we volgende verdeling:

< 1 jaar 1 tot 2 jaar >= 2 jaar Totaal
11 16

Aantal werkzoekenden van Chinese origine volgens hun werkloosheidsduur. (Bron data: arvastat.vdab.be)

Hé, het streepje werkt!? Zo lijkt het maar, want combineren we het totaal aantal werkzoekenden van Chinese origine in Mechelen met de variabelen geslacht én de basiscategorie voor leeftijd dan krijgen we onbedoeld veel meer details te zien…

< 25 jaar 25 tot 50 jaar >= 50 jaar Totaal
man vrouw man vrouw man vrouw
0 4 9 16

Aantal werkzoekenden van Chinese origine volgens geslacht en basiscategorie leeftijd. (Bron data: arvastat.vdab.be)

De simpele rekensom verklapt opnieuw de ware aantallen voor elke cel: x + 0 + 4 + 9 + y + z = 16

Aangezien x, y of z niet gelijk kunnen zijn aan 0, moeten ze wel telkens gelijk zijn aan 1. En komen we opnieuw zonder moeite veel meer details te weten.

De data-site van de VDAB is een topproduct. Maar of ze echt “privacy-proof” is, valt te betwisten. Vooral de identiteit van werkzoekenden uit een gemeente met relatief zeldzame, specifieke afgelijnde kenmerken – zoals een bepaalde buitenlandse origine gecombineerd met een leeftijdscategorie – staat op deze manier onder druk.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s