Geanonimiseerde demografische gegevens kunnen nog steeds worden gebruikt om u te identificeren

Profiel van een man wiens gezicht identificeerbare informatie over hem heeft.

Als u een van de weinige mensen bent die de servicevoorwaarden leest, kunt u in het privacybeleid van verschillende bedrijven een clausule vinden die zegt dat zij uw gegevens kunnen verzamelen en verkopen aan derden.

De gegevens, zeggen ze, zijn geanonimiseerd, maar een nieuwe studie is gepubliceerd in Natuurcommunicatie toont aan dat het, afhankelijk van wat u deelt, nog steeds mogelijk is om u opnieuw te identificeren met verbazingwekkende nauwkeurigheid. Onderzoekers van het Imperial College London en de Universiteit van Leuven in België creëerden een machine-learning model dat individuen kan heridentificeren uit geanonimiseerde datasets, zelfs uit “zeer onvolledige datasets”.

Zulke onthullingen komen op een moment dat meer mensen op hun hoede zijn voor bedrijven die hun gegevens aan derden verkopen en schadelijke gevolgen hebben voor de privacy van de momenteel opgeslagen (en gedeelde) anonieme gegevens die veel bedrijven en academische instellingen verzamelen en gebruiken.

Hoe werkt data-anonimisering?

Tenzij je helemaal uit de startblokken bent, produceer je regelmatig veel persoonlijke gegevens – van je online aankopen en je hardlooproutes tot meer persoonlijke gegevens zoals je gezondheidsdossiers.

Dergelijke gegevensverzamelingen zijn goudstof voor adverteerders die hun targeting willen verbeteren (lees: Cambridge Analytica), en voor onderzoekers die op zoek zijn naar trends in de volksgezondheid, en gezichtsherkenning leren aan kunstmatige intelligentie.

Om de identiteit achter de gegevens te beschermen, zijn de algemene ‘best practices’ geweest om duidelijk identificerende informatie zoals namen, e-mailadressen en telefoon- en sofinummers te verwijderen..

[Wilt u meer privacy- en beveiligingsnieuws? Meld u aan voor de ExpressVPN blog nieuwsbrief.]

Verouderde anonimatietechnieken

Veel van de populaire methoden van anonimisering zijn sinds de jaren negentig ongewijzigd gebleven en hebben geen complexere anonimetechnieken aangenomen als reactie op de explosie van online gegevens sinds.

Er zijn verschillende gevallen, die teruggaan tot 2000, van zogenaamd anonieme datasets die zijn vrijgegeven en vervolgens opnieuw zijn geïdentificeerd.

In 2017 hebben journalisten met succes “politici opnieuw geïdentificeerd in een geanonimiseerde dataset van browsergeschiedenis van 3 miljoen Duitse burgers, waarbij hun medische informatie en hun seksuele voorkeuren werden blootgelegd”.

De nieuwe studie verwijst ook naar eerder werk waarin onderzoekers in staat waren om “individuen in geanonimiseerde taxitrajecten op unieke wijze te identificeren in NYC, fietsuitwisselingsreizen in Londen, metrogegevens in Riga en datasets voor mobiele telefoons en creditcards.”

Er zijn maar weinig gegevens nodig om u opnieuw te identificeren

De onderzoekers achter het onderzoek hebben een online formulier gebouwd waar u uw kansen kunt testen om te worden geïdentificeerd (alleen voor inwoners van de VS en het VK) van een hypothetische zorgverzekeraar met slechts drie gegevenspunten: uw geslacht, geboortedatum en postcode.

Als u bijvoorbeeld een Amerikaanse man bent geboren op 12 november 1990, en momenteel in de postcode 02139 woont, is er een 54% kans dat uw werkgever of buurman u kan identificeren.

Maar dat percentage neemt toe als je meer attributen toevoegt: alleen al je burgerlijke staat toevoegen kan de kans vergroten om je te identificeren 99%. Andere kenmerken zijn het aantal voertuigen, de werkklasse (gekozen branche) en het huisbezit.

Hoe moeten bedrijven onze gegevens anonimiseren?

Uit dit onderzoek blijkt duidelijk dat de huidige anonimiseringspraktijken de privacy van mensen onvoldoende beschermen en kwetsbaar maken voor heridentificatie door iedereen die toegang heeft tot die gegevens.

Helaas is er niet veel dat het individu hier kan doen – het is aan de bedrijven en instellingen die deze gegevens opslaan, verkopen en gebruiken om te veranderen hoe zij de gegevens anonimiseren. Regelgeving zoals de EU-AVG en de California Privacy Act van de consument vereisen beide dat de individuen in alle datasets anoniem zijn en niet opnieuw kunnen worden geïdentificeerd, maar het kan moeilijk zijn om bedrijven verantwoordelijk te houden.

Een manier om heridentificatie in geanonimiseerde gegevens te voorkomen, is differentiële privacy, een wiskundig model dat zorgvuldig een gecontroleerde hoeveelheid willekeurige “ruis” toevoegt aan de gegevens voordat deze naar een server worden verzonden, waardoor de gegevens een beetje nauwkeuriger dan nauwkeurig zijn, maar beschermt voldoende de privacy van het individu. Bedrijven als Apple en Google hebben differentiële privacy in hun gegevensverzameling opgenomen.

We zullen differentiële privacy snel op de proef stellen: het zal worden gebruikt in de volgende volkstelling.

Stappen die u kunt nemen om uzelf te beschermen

Wat moet u doen als een bedrijf uw toestemming vraagt ​​om geanonimiseerde gegevens met derden te delen? Overweeg om uw gegevens zelf te anonimiseren. Niet elk bedrijf heeft echt recht op uw echte geboortedatum, uw werkelijke postcode, uw geslacht of burgerlijke staat, of zelfs noodzakelijk uw echte naam. Als een detail niet cruciaal is voor uw gebruik van een bepaalde service, kunt u wat inconsistentie verspreiden. (En als een unieke verkeerd gespelde naam in uw mailbox verschijnt, weet u precies welk bedrijf u heeft uitverkocht.)

Beter nog, doe alleen zaken met bedrijven die helemaal vooraf zijn over welke gegevens ze verzamelen, die nooit gegevens verzamelen die ze niet nodig hebben, die nooit uw persoonlijke gegevens delen of verkopen met derden, en die anonimiseren van zelfs basisdiagnostiek informatie dodelijk serieus (en je kunt je zelfs afmelden, als je dat wilt). We weten er toevallig minstens één.

Kim Martin
Kim Martin Administrator
Sorry! The Author has not filled his profile.
follow me