Розуміння сукупних, невизначених та анонімних даних

Розуміння сукупних, невизначених та анонімних даних


“Ми можемо ділитися зведеними даними з нашими партнерами.”

“Ми можемо ділитися зведеними або деефікованими даними”.

“Наш продукт збирає анонімні дані для аналізу.”

Багато організацій стверджують, що вони захищають конфіденційність за допомогою використання сукупних, невизначених або анонімних даних. Однак чи розуміють їх користувачі, що означають терміни? Що таке сукупні дані? Чи є різниця між деіндентифікованими та анонімними даними? Для дослідників набір даних має більше значення: сукупний або анонімний? 

Користувачі часто погоджуються на обмін персональними даними з деіндентифікацією, не розуміючи деталей.

Якщо ви коли-небудь замислювалися про те, що відбувається, більше не дивуйтеся. Ось ваш посібник з деіндентифікації даних, агрегації даних та різних рівнів анонімності.

Сукупні дані: об’єднати та узагальнити

Отже, що таке сукупні дані? Агрегація стосується популярного в статистиці процесу вилучення даних. Інформація може бути переглянута лише групами та як частина резюме, а не за окремою особою. Коли вчені покладаються на сукупні дані, вони не можуть отримати доступ до необмеженої інформації. Натомість, сукупність даних збирає, поєднує та передає деталі у вигляді підсумків або підсумків. Багато популярних статистичних даних і мов баз даних дозволяють використовувати сукупні функції, підручники доступні для R, SQL та Python.

Розглянемо наступне: маркетингова компанія проводить опитування, щоб побачити, чи люди віддають перевагу марці своєї компанії чи конкурентам. Коли вони представляють дані управлінням, це в сукупному вигляді: показує, який бренд є найпопулярнішим. Вони можуть включати додаткову інформацію про групи, з якими вони розмовляли, наприклад, перевагу голосування за віком чи місцем розташування. За допомогою сукупної інформації ми можемо отримати детальну інформацію про те, які бренди популярні за віком чи в певних регіонах, але точні відомості про те, як люди голосували, ніколи не виявляються.

Чи може агрегація захищати конфіденційність?

Оскільки агрегація даних відображає інформацію лише у групах, багато хто вважає це захистом особистої інформації. Зрештою, ви не можете порушувати конфіденційність, якщо дані показують результати лише для груп людей, правда?

На жаль, це не так просто;  при правильному аналізі сукупна інформація може виявити істотно особисті дані. Що робити, якщо запитати сукупні дані блогу: скільки відвідувачів ви отримуєте з Ірландії, які переглядають блог на смартфоні? Що робити, якщо запитати кількість відвідувачів з Ірландії, які користуються смартфоном, за один день? Або відвідувачі з Ірландії, які користуються смартфоном, і натискали оголошення Amazon для чоловічого одягу в один день? Застосовуючи декілька конкретних фільтрів, можливо, можна виділити окремого, навмисне чи ні. Агрегація може захистити конфіденційність, але немає гарантії, що це завжди є.

Для організацій, які використовують агрегування даних, Ед Фелтон із FTC має попередження: сукупні дані можуть бути корисними, але це не гарантує конфіденційність.

“Простий аргумент того, що це сукупні дані, тому безпечні для випуску, сам по собі недостатній”.

Деіндентифікація: видалення особистих даних

Де-ідентифікація – це процес, який видаляє особисті дані з набору даних. Цей підхід спрямований на захист конфіденційності, в той же час надаючи вичерпні дані для аналітики. Деякі дані краще визначати осіб, ніж інші. Нас легко визначити, коли дані включають наше ім’я, адресу, електронну пошту, дату народження чи інші унікальні фактори. Де-ідентифікуючи, ми видаляємо ці унікальні ідентифікатори із необроблених даних. 

Роздрібний магазин, який використовує де-ідентифікацію, може відстежувати окремі покупки, дати та місця зберігання, але видаляти імена та адреси. У той час як “Сьюзен Сміт із 75 Кларк-драйв у Великому водоспаді, штат Монтана, магазини інженерних книг”, база даних магазину записує її як “користувача місця розташування в штаті Монтана, який купує інженерні книги”. Де-ідентифікація знімає ім’я та ідентифікатори Сьюзен, щоб її покупка могла приймати будь-хто.

Де-ідентифікація є особливо популярним захистом конфіденційності у клініках та організаціях, що обробляють інформацію про здоров’я. Закон про переносність та підзвітність медичного страхування (HIPAA) стосується деіндентифікації відповідно до розділу 164.514. За інформацією HIPAA, коли інформацію можна визначити, коли

“Немає розумної основи, яку інформацію можна використовувати для ідентифікації особи”.

HIPAA допускає деякі надбавки щодо дефініфікованих даних, наприклад, розголошення для досліджень або державних службовців.

Від де-ідентифікованої до повторної ідентифікації: це може зайняти не багато.

На жаль для організацій, які можуть сподіватися використовувати де-ідентифікацію як гарантію, багато хто зараз вважає це поганим захистом. Люди можуть бути ідентифіковані за більш ніж іменами та номерами, завдяки детальним наборам даних. Якщо завдання суб’єкта даних – “мер”, а необроблені дані містять місто, не потрібно багато розбиратися, хто хто.  

Надзвичайно популярний випадок висвітлення недоліків де-ідентифікації стався в 2006 році з Netflix. Перший Роберт Лемос із SecurityFocus, в рамках конкурсу на вдосконалення алгоритму компанії, Netflix випустив набір з 2 мільйонів підписників. Компанія деіндентифікувала набір даних, видаляючи імена користувачів. Однак на їхнє здивування дослідники з Остіна змогли визначити користувачів. Вони зробили це, використовуючи наявні дані та заповнюючи пробіли з інших джерел: поєднуючи рейтинги користувачів із загальнодоступною базою даних про фільми. Потрібно сказати, що за версією Epic.org, Netflix скасував конкурс.

Де-ідентифікація також є помилкою, оскільки не існує універсальної згоди щодо того, яку інформацію можна ідентифікувати особисто. Чи визначаються дані, якщо IP-адреси залишаються? Що про дати народження? Існують стандарти, включаючи безпечну гавань HIPAA, але чи їх достатньо? За даними Privacy Analytics, що входить до групи компаній IQVIA, Safe Harbor “насправді не забезпечує низький ризик повторної ідентифікації, за винятком дуже обмежених обставин”. Це погана новина для організацій охорони здоров’я, які покладаються на неї, оскільки згідно з розділом 164.514.2.ii розділу HIPAA, надбавки за деіндефіковані дані є прийнятними лише в тому випадку, якщо немає ніяких доказів, дані не можуть бути ідентифіковані. Останні дослідження за останні десять років, в т.ч. Ризики для конфіденційності пацієнта: Повторна ідентифікація даних про пацієнтів у штаті Мен та Вермонт у загальнодержавному стаціонарі тепер означає, що потрібні нові стандарти.  

Що з кодованими даними? Токенізація?

Кодовані дані та токенізація є надійними способами захисту конфіденційних даних. Для кодованих даних вся конфіденційна інформація викреслюється та замінюється кодовими словами, числами або унікальними ідентифікаторами. Коди відображаються в іншій базі даних або документі, який працює як ключ. Інформація повторно ідентифікується шляхом зіставлення коду з відповідними конфіденційними даними.  

У токенізації ми автоматизуємо процес, замінюючи чутливі дані на еталонну змінну. Маркер відображається з більш захищеною базою даних, в якій зберігається конфіденційна інформація. Під час обробки інформації система аналізує лексеми на записи в захищеній базі даних. Якщо він знайде відповідний збіг маркера, обробка продовжується з використанням конфіденційних даних. 

Кодовані дані та лексеми захищають інформаційну безпеку. Вони ефективні, оскільки приховують лише конфіденційні дані. Якщо аналітик бажає обробити дані, не посилаючись на особисті дані, вони можуть. Аналогічно, набори даних, які використовують ідентифікатори коду або лексеми, безпечніші проти крадіжок. Якщо дані порушені, чутливі дані залишаються прихованими. Наприклад, зловмисник, який краде дані про продаж кредитних карток, не може бачити номери карт, якщо використовуються жетони. 

Однак майте на увазі, що хоча маркери, кодовані дані та унікальні ідентифікатори пропонують кращу безпеку, вони не роблять даних анонімними. Дані, що використовують маркери або ідентифікатори коду, досі підпадають під дію регламенту конфіденційності. Закони про конфіденційність стосуються не лише порушення та доступу до даних. Законодавство про конфіденційність працює над тим, щоб мінімізувати можливе зловживання персональними даними. До тих пір, поки дані можуть бути повторно ідентифіковані, авторизація повинна укладати угоди про конфіденційність. 

Анонімні дані: ми не можемо сказати, хто ви … чи ми можемо?

Анонімні дані відносяться до інформації, коли неможливо ідентифікувати осіб.  Дійсно анонімні набори даних – мрія любителя конфіденційності. Можливість збирати, зберігати та аналізувати дані без можливості розпізнавання осіб є ідеальною гарантією. Для організацій, яким вдалося зберегти свої дані анонімними, вигоди величезні. Анонімні дані простіше продавати, обробляти, аналізувати та зберігати, оскільки для захисту потрібно менше гарантій. 

Застосовується менше правил: анонімні дані часто звільняються від законодавства про конфіденційність, включаючи Загальний регламент щодо захисту даних Е.У. Відповідно до GDPR, інформація, “яка не стосується ідентифікованої або ідентифікованої фізичної особи або особистих даних, що надаються анонімними таким чином, що суб’єкт даних не є або більше не може бути ідентифікований”, не підпадає під вимоги конфіденційності.

Як зробити дані анонімними? Більшість методів належать до однієї з трьох категорій: криптографічна, генералізація (також відома як перекодування) та рандомізація. 

Криптографічні методи зашифрувати інформацію в сховищі, зробивши дані анонімними до розшифрування для використання. Це захищає дані, але означає, що повторна ідентифікація може статися, коли дані розшифровуються для обробки. 

Прийоми узагальнення запозичити з агрегації даних та де-ідентифікації, щоб свідомо видалити ідентифікатори та зменшити точні дані. Наприклад, при узагальненні, зріст або вага особи стає діапазоном замість точної кількості. 

Рандомізація сканує результати, додаючи дані та переміщуючи елементи, щоб результати повторної ідентифікації були повними помилок. Посібники з управління даними Фінського архіву соціальних наук надають поглиблені пояснення щодо методів анонімізації якісних та кількісних даних..

Чому нам може знадобитися взагалі відмовитися від ідеї анонімних даних

На жаль, можливість анонімних особистих даних більше не може бути можливою. Винахідливість, яку можна використовувати для повторної ідентифікації людей, надзвичайно приголомшлива. Пишучи для The Guardian, Олівія Солон перелічує приклади використання папарацьких знімків та безіменних журналів таксі для встановлення поганих самоскидів для знаменитостей. Cory Doctorow пише для BoingBoing.net, що журналіст Свеа Екерт та вчений з питань даних Андреас Дьюес визначили режим лікування ліків Німеччини за допомогою даних, зібраних плагінами браузера. У липні 2019 року журналістка New York Times Джина Колата опублікувала докази того, що вчені можуть повторно ідентифікувати “анонімізовані” дані перепису в США. Між досягненнями науки про дані та все більшою кількістю даних для заповнення прогалин концепція анонімних даних може стати безглуздою..

Тож якщо жодна з цих методик повністю не захищає конфіденційність, що ми робимо?

По-перше, визнайте, що хоча сукупні, визначені та анонімізовані набори даних не захищають конфіденційність повністю, вони все ще пропонують певний рівень захисту. Якщо ваші дані агрегуються, деіндентифіковані або анонімізовані, є менший шанс їх щодня читати процесори. На щастя, для витягування особистої інформації з цих оброблюваних даних потрібні інструменти та навички, доступні не кожній особі.  

По-друге, будьте в курсі, якщо ви бачите ці фрази в політиці конфіденційності або умовах користування, що ваша особиста інформація все ще доступна. Служба, яка збирає анонімні дані, все ще може збирати особисту інформацію. Компанії, які діляться сукупною або деіндефікованою інформацією, все ще діляться особистими даними: які ваші почуття щодо цього? 

Якщо ви керуєте бізнесом, який використовує агрегацію, де-ідентифікацію чи анонімізацію, визнайте, що вони не можуть бути вашими єдиними гарантіями. У вас все ще мають бути застосовані інші заходи фізичного, технічного та адміністративного захисту. Порушення деіндентифікованих даних все ще може коштувати вам, особливо якщо є докази того, що особисті дані можна збирати. Використовуйте ці методи як інструмент, але не в кінці всіх програм конфіденційності та безпеки.

Дивись також: Тенденції порушення даних 

Kim Martin Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map