Pag-unawa sa pinagsama-samang, de-kinilala at hindi nagpapakilalang data

Pag-unawa sa pinagsama-samang, de-kinilala at hindi nagpapakilalang data

“Maaari naming ibahagi ang pinagsama-samang data sa aming mga kasosyo.”

“Maaari naming ibahagi ang data na pinagsama o de-kinilala.”

“Kinokolekta ng aming produkto ang hindi nagpapakilalang data para sa mga layunin ng analytics.”

Maraming mga organisasyon ang nagtatanggol na pinoprotektahan nila ang privacy sa pamamagitan ng paggamit ng pinagsama-samang, de-kinilala o hindi nagpapakilalang data. Gayunpaman, nauunawaan ba ng kanilang mga gumagamit kung ano ang ibig sabihin ng mga term? Ano ang pinagsama-samang data? Mayroon bang pagkakaiba sa pagitan ng de-kinilala at hindi nagpapakilalang data? Para sa mga mananaliksik, kung aling mga set ng data ang may higit na halaga: pinagsama-sama o hindi nagpapakilalang? 

Ang mga gumagamit ay madalas na sumasang-ayon sa pagbabahagi ng personal na data sa de-pagkakakilanlan, nang hindi naiintindihan ang mga detalye.

Kung naisip mo na kung ano ang nangyayari, huwag nang magtaka. Narito ang iyong gabay sa data de-identification, pagsasama-sama, at iba’t ibang mga antas ng hindi nagpapakilala.

Pinagsama ang data: upang pagsamahin at buod

Kaya, ano ang pinagsama-samang data? Ang pagsasama ay tumutukoy sa isang proseso ng pagmimina ng data na tanyag sa mga istatistika. Ang impormasyon ay makikita lamang sa mga grupo at bilang bahagi ng isang buod, hindi sa bawat indibidwal. Kapag ang data ng mga siyentipiko ay umaasa sa pinagsama-samang data, hindi nila mai-access ang hilaw na impormasyon. Sa halip, pagkolekta ng data, pinagsasama at nakikipag-usap ng mga detalye sa mga tuntunin ng kabuuan o buod. Maraming mga tanyag na istatistika at mga wika ng database ang nagpapahintulot para sa mga pinagsama-samang mga pag-andar, na magagamit ang mga tutorial para sa R, SQL at Python.

Isaalang-alang ang sumusunod: ang isang kumpanya ng marketing ay nagpapatakbo ng isang survey upang makita kung mas gusto ng mga tao ang tatak ng kanilang kumpanya, o ang kanilang mga kakumpitensya. Kapag ipinakita nila ang data sa pamamahala, ito ay nasa pinagsama-samang form: ipinapakita kung aling tatak ang pinakapopular. Maaaring isama nila ang karagdagang impormasyon sa mga pangkat na kanilang nakausap, tulad ng kagustuhan sa pagboto sa edad o lokasyon. Sa pinagsama-samang impormasyon, makakakuha kami ng mga detalye sa kung ano ang sikat ng tatak sa edad o sa ilang mga rehiyon, ngunit ang eksaktong mga detalye sa kung paano ang mga indibidwal ay bumoto ay hindi kailanman isiniwalat.

Maaari protektahan ang pagsasama-sama sa privacy?

Habang ang data ng pagsasama ay nagpapakita lamang ng impormasyon sa mga grupo, marami ang isinasaalang-alang ito na isang proteksyon upang maprotektahan ang personal na impormasyon. Pagkatapos ng lahat, hindi ka maaaring makompromiso ang privacy kung ipinapakita lamang ng data ang mga resulta para sa mga grupo ng mga indibidwal, tama?

Nakalulungkot, hindi ito kadali;  na may tamang pagsusuri, ang pinagsama-samang impormasyon ay maaaring magbunyag ng mga personal na detalye. Paano kung tatanungin mo ang pinagsama-samang data ng blog: ilang mga bisita ang nakukuha mo mula sa Ireland, na tumitingin sa blog sa isang smartphone? Paano kung hihilingin mo ang bilang ng mga bisita mula sa Ireland, na gumagamit ng isang smartphone, sa isang araw? O mga bisita mula sa Ireland na gumagamit ng isang smartphone, at nag-click sa isang ad ng Amazon para sa menswear sa isang araw? Sa pamamagitan ng paglalapat ng maramihang, tiyak na mga filter, maaaring posible na mag-isa sa isang indibidwal, sinasadya o hindi. Ang proteksyon ay maaaring maprotektahan ang privacy, ngunit walang garantiya na palaging ginagawa ito.

Para sa mga organisasyon na gumagamit ng data ng pagsasama-sama, si Ed Felton kasama ang FTC ay may babala: maaaring maging kapaki-pakinabang ang data ng pinagsama-samang, ngunit hindi nito ginagarantiyahan ang privacy.

“Ang simpleng argumento na ang pinagsama-samang data, samakatuwid ligtas na palayain, ay hindi sapat sa kanyang sarili.”

De-pagkakakilanlan: pagtanggal ng mga personal na detalye

Ang De-identification ay isang proseso na nag-aalis ng mga personal na detalye mula sa isang set ng data. Ang pamamaraang ito ay naglalayong protektahan ang privacy habang nagbibigay pa rin ng komprehensibong data para sa analytics. Ang ilan sa mga data ay mas mahusay na makilala ang mga indibidwal kaysa sa iba. Madali kaming matukoy kung kasama ang data sa aming pangalan, address, email, petsa ng kapanganakan o iba pang mga natatanging kadahilanan. Sa pamamagitan ng de-pagkakakilanlan, tinanggal namin ang mga natatanging pagkakakilanlan mula sa hilaw na data. 

Ang isang tingi sa tindahan na gumagamit ng de-pagkakakilanlan ay maaaring subaybayan ang mga indibidwal na pagbili, petsa at, mga lokasyon ng tindahan, ngunit alisin ang mga pangalan at address. Habang “Si Susan Smith mula sa 75 Clark Drive sa Great Falls, Montana shop para sa mga libro sa engineering”, naitala sa kanya ang database ng tindahan bilang isang “gumagamit ng lokasyon ng Montana na bumili ng mga libro sa engineering”. Tinatanggal ng De-identification ang pangalan at identipikasyon ni Susan upang ang kanyang pagbili ay maaaring magmula sa sinuman.

Ang De-identification ay isang partikular na sikat na proteksyon sa privacy sa mga klinika at mga organisasyon na nagpoproseso ng impormasyong pangkalusugan. Ang Health Insurance Portability and Accountability Act (HIPAA) ay tumatalakay sa de-identification sa ilalim ng seksyon 164.514. Ayon sa HIPAA, ang impormasyon ay maipakilala kung kailan

“Walang makatwirang batayan ang impormasyon ay maaaring magamit upang makilala ang isang indibidwal”.

Pinapayagan ng HIPAA ang ilang mga allowance para sa mga nakilala na data, tulad ng mga pagsisiwalat para sa pananaliksik o sa mga pampublikong opisyal.

Mula sa de-kinilala upang makilala muli: maaaring hindi ito magkano magkano.

Sa kasamaang palad para sa mga organisasyon na maaaring umaasa na gumamit ng de-identipikasyon bilang isang pangalaga, marami sa ngayon ang nakakakita nito bilang hindi magandang proteksyon. Ang mga tao ay maaaring makilala ng higit sa mga pangalan at numero, salamat sa mga detalyadong hanay ng data. Kung ang trabaho ng isang paksa ng data ay ‘Mayor’ at ang hilaw na data ay may kasamang lungsod, hindi kinakailangan na malaman kung sino ang.  

Ang isang napaka-tanyag na kaso ng pag-highlight ng kamalian ng de-pagkakakilanlan ay dumating noong 2006 kasama ang Netflix. Per Robert Lemos kasama ang SecurityFocus, sa isang paligsahan upang mapabuti ang algorithm ng kumpanya, naglabas ang Netflix ng isang hanay ng 2 milyong mga tagasuskribi. Kinilala ng kumpanya ang data na itinakda sa pamamagitan ng pag-alis ng mga pangalan ng gumagamit. Ngunit sa kanilang sorpresa, ang mga mananaliksik mula sa Austin ay nakilala ang mga gumagamit. Ginawa nila ito sa pamamagitan ng paggamit ng data na magagamit at pinunan ang mga blangko mula sa iba pang mga mapagkukunan: pagsasama ng mga rating ng gumagamit sa isang pampublikong database ng mga marka ng pelikula. Hindi na kailangang sabihin, ayon sa Epic.org, kinansela ng Netflix ang paligsahan.

Ang pagkakakilanlan ay hindi rin mali dahil walang unibersal na kasunduan sa kung ano ang personal na pagkakakilanlan. Natukoy ba ang data kung mananatili ang mga IP address? Kumusta ang mga petsa ng kapanganakan? May mga pamantayan, kasama ang Safe Harbour ng HIPAA, ngunit sapat ba sila? Ayon sa Privacy Analytics, bahagi ng pangkat ng mga kumpanya ng IQVIA, ang Safe Harbour “ay hindi tinitiyak na ang panganib ng muling pagkakakilanlan ay mababa maliban sa sobrang limitadong mga kalagayan.” Ang masamang balita na iyon para sa mga organisasyong pangkalusugan na umaasa dito, dahil sa bawat seksyon ng HIPAA § 164.514.2.ii, ang mga allowance para sa mga nakilala na data ay tatanggapin lamang kung walang katibayan na makikilala ang data. Kamakailang pag-aaral sa nakalipas na sampung taon, kasama na Mga panganib sa Patakaran sa Pasyente: Isang Pagpakilala sa mga Pasyente sa Maine at Data ng Vermont Statewide Hospital nangangahulugan ngayon na kinakailangan ang mga bagong pamantayan.  

Paano ang tungkol sa naka-code na data? Tokenization?

Ang mga naka-code na data at tokenization ay solidong paraan upang maprotektahan ang sensitibong data. Para sa naka-code na data, ang lahat ng sensitibong impormasyon ay nakuha at pinalitan ng mga salita ng code, numero, o mga natatanging tagatukoy. Ang mapa ng mga code sa isa pang database o dokumento na gumagana bilang isang susi. Ang impormasyon ay muling nakilala sa pamamagitan ng pagtutugma ng code sa kaukulang sensitibong data.  

Sa tokenization, awtomatiko namin ang proseso, pinapalitan ang sensitibong data sa isang variable na sanggunian. Ang mga mapa ng token na may isang mas ligtas na database na humahawak ng sensitibong impormasyon. Kapag ang pagproseso ng impormasyon, pinag-aaralan ng system ang mga token laban sa mga tala sa secure na database. Kung nahanap nito ang kaukulang tugma ng token, ang pagproseso ay patuloy na ginagamit ang sensitibong data. 

Pinoprotektahan ng mga naka-code na data at token ang seguridad ng impormasyon. Ang mga ito ay mahusay dahil nagtatago lamang sila ng sensitibong data. Kung nais ng isang analyst na iproseso ang data nang hindi tinukoy ang mga personal na detalye, magagawa nila. Gayundin, ang mga set ng data na gumagamit ng mga tagatukoy ng code o token ay mas ligtas laban sa pagnanakaw. Kung ang data ay nakompromiso, ang sensitibong data ay nananatiling nakatago. Halimbawa, ang isang nagsasalakay na nagnanakaw ng data sa mga benta ng credit card ay hindi makikita ang mga numero ng card kung ginagamit ang mga token. 

Gayunpaman, magkaroon ng kamalayan, na habang ang mga token, naka-code na data at natatanging mga identifier ay nag-aalok ng mas mahusay na seguridad hindi nila ginagawa ang hindi nagpapakilalang data. Ang data na gumagamit ng mga token o code identifier ay napapailalim sa mga regulasyon sa privacy. Ang mga batas sa privacy ay hindi lamang nababahala sa paglabag sa data at pag-access. Ang mga batas sa pagkapribado ay gumagana upang mabawasan ang potensyal na maling paggamit ng personal na data. Hangga’t ang data ay maaaring, na may pahintulot, na makilala muli, ang mga kasunduan sa privacy ay dapat na nasa lugar. 

Anonymous data: hindi namin masabi kung sino ka … o kaya namin?

Ang hindi nagpapakilalang data ay tumutukoy sa impormasyon kung imposibleng makilala ang mga indibidwal.  Ang tunay na hindi nagpapakilalang mga hanay ng data ay pangarap ng tagahanga ng privacy. Ang kakayahang mangolekta, mag-imbak, at mag-aralan ng mga data nang walang kakayahang makilala ang mga indibidwal ay gumawa ng isang mainam na pangalagaan. Para sa mga organisasyon na namamahala upang mapanatili ang kanilang data nang hindi nagpapakilala, ang mga benepisyo ay napakalaki. Ang hindi nagpapakilalang data ay mas madaling magbenta, magproseso, mag-aralan at mapanatili, dahil nangangailangan ito ng mas kaunting mga proteksyon para sa proteksyon. 

Mas kaunting mga panuntunan ang nalalapat: ang hindi nagpapakilalang data ay madalas na na-exempt mula sa mga batas sa pagkapribado, kabilang ang regulasyon ng Pangkalahatang Data ng Proteksyon ng E.U. Ayon sa GDPR, ang impormasyong “na hindi nauugnay sa isang kinikilala o makikilala na likas na tao o sa personal na data na iginawad nang hindi nagpapakilala sa isang paraan na ang paksa ng data ay hindi o hindi na makikilala” ay hindi napapailalim sa mga kinakailangan sa privacy.

Paano mo gagawa ng anonymous ang data? Karamihan sa mga pamamaraan ay nahuhulog sa isa sa tatlong kategorya: cryptographic, generalization (na kilala rin bilang pag-recoding), at randomization. 

Mga pamamaraan ng cryptographic i-encrypt ang impormasyon sa imbakan, ginagawa ang hindi nagpapakilalang data hanggang sa mai-decry para magamit. Pinoprotektahan nito ang data ngunit nangangahulugang ang muling pagkilala ay maaaring mangyari kapag ang data ay nai-decryp para sa pagproseso. 

Mga diskarte sa generalisasyon humiram mula sa pagsasama ng data at de-pagkakakilanlan, upang sadyang alisin ang mga pagkakakilanlan at bawasan ang tumpak na data. Sa ilalim ng generalization, halimbawa, ang taas o bigat ng isang indibidwal ay nagiging isang saklaw, sa halip ng eksaktong numero. 

Randomization skews ang mga resulta sa pamamagitan ng pagdaragdag ng data at paglipat ng mga elemento sa paligid upang ang mga resulta ng muling pagkilala ay puno ng mga pagkakamali. Ang Mga Patnubay sa Pamamahala ng Data ng Data ng Finnish Social Archive ay nagbibigay ng malalim na mga paliwanag sa mga pamamaraan para sa hindi nagpapakilala sa kwalipikado at dami ng data.

Bakit maaaring kailanganin nating isuko ang ideya ng hindi nagpapakilalang data

Sa kasamaang palad, ang kakayahan para sa personal na data upang maging hindi nagpapakilalang maaaring hindi na isang pagpipilian. Ang katalinuhan na maaaring magamit upang makilala muli ang mga indibidwal ay lubos na kamangha-mangha. Ang pagsulat para sa The Guardian, si Olivia Solon ay naglilista ng mga halimbawa ng paggamit ng mga paparazzi shots at walang pangalan na mga troso ng taksi upang maitaguyod ang mga hindi kilalang tao na tippers. Sinulat ni Cory Doctorow para sa BoingBoing.net na ang mamamahayag na si Svea Eckert at scientist ng data na si Andreas Dewes ay nakilala ang rehimeng gamot ng Aleman ng MP sa pamamagitan ng data na nakolekta ng mga plug-in ng browser. Noong Hulyo 2023, inilathala ng mamamahayag ng New York Times na si Gina Kolata na katibayan na ang mga siyentipiko ay makikilala muli ang data na ‘hindi nagpapakilala’ ng U.S. Census. Sa pagitan ng mga pagsulong sa agham ng data at isang pagtaas ng trove ng data upang punan ang mga gaps, ang konsepto ng hindi nagpapakilalang data ay maaaring maging walang kahulugan.

Kaya’t kung wala sa mga pamamaraan na ito na lubos na nagpoprotekta sa privacy, ano ang gagawin natin?

Una, kilalanin na habang ang pinagsama-samang, de-kinilala at hindi nagpakilalang mga set ng data ay hindi protektahan nang ganap ang privacy, nag-aalok pa rin sila ng ilang antas ng proteksyon. Kung ang iyong data ay pinagsama, de-kinilala o hindi nagpapakilala, mas kaunti ang posibilidad na mabasa ito ng pang-araw-araw na mga nagproseso. Sa kabutihang palad, ang paghila ng personal na impormasyon mula sa labis na naproseso na data ay nangangailangan ng mga tool at kasanayan na hindi magagamit sa bawat indibidwal.  

Pangalawa, alalahanin kung nakikita mo ang mga parirala na ito sa mga patakaran sa privacy o termino ng paggamit na naa-access pa rin ang iyong personal na impormasyon. Ang isang serbisyo na nangongolekta ng hindi nagpapakilalang data ay maaari pa ring magtipon ng personal na impormasyon. Ang mga kumpanya na nagbabahagi ng pinagsama-samang o de-kilalang impormasyon ay nagbabahagi pa rin ng mga personal na detalye: ano ang iyong nararamdaman sa iyon? 

Kung nagpapatakbo ka ng isang negosyo na gumagamit ng pinagsama-sama, de-pagkakakilanlan o hindi nagpapakilala, kilalanin na ang mga ito ay hindi maaaring maging iyong mga pangalaga lamang. Dapat ka pa ring magkaroon ng iba pang mga hakbang sa pangangalaga ng pisikal, teknikal at pangangalaga sa lugar. Maaari pa ring gastos sa iyo ang isang paglabag sa data ng data na kinilala, lalo na kung may katibayan na maaaring makolekta ang mga personal na detalye. Gamitin ang mga pamamaraan na ito bilang isang tool, ngunit hindi ang katapusan-lahat ng mga programa sa privacy at seguridad.

Tingnan din: Mga kalakaran sa paglabag sa data