“Omwille van privacy-wetgeving kan het streepje “-” zowel 1, 2 als 3 personen betekenen.” Dat schrijft de VDAB bij de werkloosheidsstatistieken op haar data-website wanneer het aantal werkzoekenden in de tabellen zo klein is dat deze personen dreigen identificeerbaar te worden. Maar die privacy-maatregel is veel minder waterdicht dan dat de VDAB laat uitschijnen.
Een simpel voorbeeldje voor de Mechelse werkloosheidsstatistieken van vorige maand: toen waren er in onze stad in totaal 18 mensen van Roemeense origine werkzoekend. Wanneer we hen indelen volgens hun werkloosheidsduur ziet dat er uit als volgt:
< 1 jaar | 1 tot 2 jaar | >= 2 jaar | Totaal |
11 | 6 | – | 18 |
Aantal werkzoekenden van Roemeense origine volgens hun werkloosheidsduur. (Bron data: arvastat.vdab.be)
Met een simpel streepje geeft de VDAB aan dat er vorige maand in Mechelen 1, 2 ofwel 3 personen met Roemeense roots minstens al 2 jaar lang werkzoekend zijn.
Omwille van privacy-wetgeving kan het streepje “-” zowel 1, 2 als 3 personen betekenen.
bron: Arvastat.vdab.be
Doordat het totaal aantal werkzoekenden van Roemeense origine gelijk is aan 18 – dat staat netjes in de tabel vermeld – is het rekensommetje wel erg snel gemaakt…
18 = 11 + 6 + x
Met simpele algebra ontcijfer je wel erg gemakkelijk de identiteit van Mechelse werkzoekenden.
Sudoku
Ook bij tabellen die op het eerste zicht wel “privacy-proof” zijn, vallen de aantallen achter het streepje (“-“) geregeld te achterhalen. Gewoon door andere variabelen met elkaar te kruisen.
Een nieuw Mechels voorbeeldje? Onze Dijlestad kende de voorbije maand 16 werkzoekenden van Chinese origine. Gecombineerd met de werkloosheidsduur krijgen we volgende verdeling:
< 1 jaar | 1 tot 2 jaar | >= 2 jaar | Totaal |
11 | – | – | 16 |
Aantal werkzoekenden van Chinese origine volgens hun werkloosheidsduur. (Bron data: arvastat.vdab.be)
Hé, het streepje werkt!? Zo lijkt het maar, want combineren we het totaal aantal werkzoekenden van Chinese origine in Mechelen met de variabelen geslacht én de basiscategorie voor leeftijd dan krijgen we onbedoeld veel meer details te zien…
< 25 jaar | 25 tot 50 jaar | >= 50 jaar | Totaal | |||
man | vrouw | man | vrouw | man | vrouw | |
– | 0 | 4 | 9 | – | – | 16 |
Aantal werkzoekenden van Chinese origine volgens geslacht en basiscategorie leeftijd. (Bron data: arvastat.vdab.be)
De simpele rekensom verklapt opnieuw de ware aantallen voor elke cel: x + 0 + 4 + 9 + y + z = 16
Aangezien x, y of z niet gelijk kunnen zijn aan 0, moeten ze wel telkens gelijk zijn aan 1. En komen we opnieuw zonder moeite veel meer details te weten.
De data-site van de VDAB is een topproduct. Maar of ze echt “privacy-proof” is, valt te betwisten. Vooral de identiteit van werkzoekenden uit een gemeente met relatief zeldzame, specifieke afgelijnde kenmerken – zoals een bepaalde buitenlandse origine gecombineerd met een leeftijdscategorie – staat op deze manier onder druk.
Follow @asgaupaust