Hiểu dữ liệu tổng hợp, không xác định và ẩn danh

Hiểu dữ liệu tổng hợp, không xác định và ẩn danh

Chúng tôi có thể chia sẻ dữ liệu tổng hợp với các đối tác của mình.

Chúng tôi có thể chia sẻ dữ liệu được tổng hợp hoặc hủy nhận dạng.

Sản phẩm của chúng tôi thu thập dữ liệu ẩn danh cho mục đích phân tích.

Nhiều tổ chức cho rằng họ bảo vệ quyền riêng tư thông qua việc sử dụng dữ liệu tổng hợp, không xác định hoặc ẩn danh. Tuy nhiên, người dùng của họ có hiểu các thuật ngữ này có nghĩa gì không? Dữ liệu tổng hợp là gì? Có sự khác biệt giữa dữ liệu không xác định và ẩn danh? Đối với các nhà nghiên cứu, bộ dữ liệu nào có nhiều giá trị hơn: tổng hợp hoặc ẩn danh? 

Người dùng thường đồng ý chia sẻ dữ liệu cá nhân với nhận dạng, mà không cần nắm bắt các chi tiết.

Nếu bạn đã từng tự hỏi những gì đang diễn ra, thì không còn gì nữa. Tại đây, hướng dẫn của bạn về nhận dạng dữ liệu, tổng hợp và các mức độ ẩn danh khác nhau.

Dữ liệu tổng hợp: để kết hợp và tóm tắt

Vậy, dữ liệu tổng hợp là gì? Tập hợp đề cập đến một quá trình khai thác dữ liệu phổ biến trong thống kê. Thông tin chỉ có thể xem được trong các nhóm và là một phần của bản tóm tắt, không phải cho mỗi cá nhân. Khi các nhà khoa học dữ liệu dựa vào dữ liệu tổng hợp, họ không thể truy cập thông tin thô. Thay thế, tổng hợp dữ liệu thu thập, kết hợp và truyền đạt chi tiết về tổng số hoặc tóm tắt. Nhiều ngôn ngữ thống kê và cơ sở dữ liệu phổ biến cho phép các hàm tổng hợp, với các hướng dẫn có sẵn cho R, SQL và Python.

Hãy xem xét những điều sau: một công ty tiếp thị thực hiện một cuộc khảo sát để xem mọi người có thích công ty của họ hay thương hiệu của họ hay không. Khi họ trình bày dữ liệu cho quản lý, nó ở dạng tổng hợp: cho thấy thương hiệu nào là phổ biến nhất. Chúng có thể bao gồm thông tin bổ sung về các nhóm mà họ đã nói chuyện, chẳng hạn như tùy chọn bỏ phiếu theo độ tuổi hoặc địa điểm. Với thông tin tổng hợp, chúng tôi có thể nhận được thông tin chi tiết về những thương hiệu phổ biến theo độ tuổi hoặc ở các khu vực nhất định, nhưng chi tiết chính xác về cách các cá nhân được bình chọn không bao giờ được tiết lộ.

Tập hợp có thể bảo vệ sự riêng tư?

Vì tổng hợp dữ liệu chỉ hiển thị thông tin theo nhóm, nhiều người coi đó là biện pháp bảo vệ thông tin cá nhân. Rốt cuộc, bạn không thể thỏa hiệp quyền riêng tư nếu dữ liệu chỉ hiển thị kết quả cho các nhóm cá nhân, phải?

Đáng buồn thay, nó không dễ dàng như vậy;  với phân tích đúng, thông tin tổng hợp có thể tiết lộ đáng kể chi tiết cá nhân. Điều gì sẽ xảy ra nếu bạn hỏi dữ liệu blog tổng hợp: bạn có bao nhiêu khách truy cập từ Ireland, những người xem blog trên điện thoại thông minh? Điều gì sẽ xảy ra nếu bạn hỏi số lượng khách đến từ Ireland, những người sử dụng điện thoại thông minh, trong một ngày? Hoặc khách truy cập từ Ireland sử dụng điện thoại thông minh và nhấp vào quảng cáo Amazon cho trang phục nam trong một ngày? Bằng cách áp dụng nhiều bộ lọc cụ thể, có thể chọn ra một cá nhân, cố ý hay không. Tập hợp có thể bảo vệ sự riêng tư, nhưng không có gì đảm bảo rằng nó luôn luôn làm.

Đối với các tổ chức sử dụng tổng hợp dữ liệu, Ed Felton với FTC có một cảnh báo: dữ liệu tổng hợp có thể hữu ích, nhưng nó không đảm bảo quyền riêng tư.

Các đối số đơn giản mà dữ liệu tổng hợp của nó, do đó, an toàn để phát hành, nhưng bản thân nó không đủ.

Hủy nhận dạng: xóa thông tin cá nhân

Hủy nhận dạng là một quá trình loại bỏ các chi tiết cá nhân khỏi bộ dữ liệu. Cách tiếp cận này nhằm bảo vệ quyền riêng tư trong khi vẫn cung cấp dữ liệu toàn diện cho các phân tích. Một số dữ liệu tốt hơn trong việc xác định các cá nhân hơn những người khác. Chúng tôi dễ dàng xác định khi dữ liệu bao gồm tên, địa chỉ, email, ngày sinh hoặc các yếu tố độc đáo khác của chúng tôi. Với tính năng nhận dạng, chúng tôi xóa những định danh duy nhất khỏi dữ liệu thô. 

Cửa hàng bán lẻ sử dụng nhận dạng có thể theo dõi các giao dịch mua, ngày và địa điểm cửa hàng riêng lẻ, nhưng xóa tên và địa chỉ. Trong khi, Susan Susan Smith từ 75 Clark Drive ở Great Falls, Montana mua sắm sách kỹ thuật, thì cơ sở dữ liệu của cửa hàng đã ghi lại cô là một người dùng của vùng Montana mua sách kỹ thuật. Hủy nhận dạng lấy ra tên và định danh Susan Susan để việc mua hàng của cô có thể đến từ bất kỳ ai.

Hủy nhận dạng là một biện pháp bảo vệ quyền riêng tư đặc biệt phổ biến với các phòng khám và tổ chức xử lý thông tin y tế. Đạo luật về trách nhiệm giải trình và trách nhiệm bảo hiểm y tế (HIPAA) đề cập đến việc nhận dạng theo mục 164.514. Theo HIPAA, thông tin có thể được nhận dạng khi

Không có cơ sở hợp lý, thông tin có thể được sử dụng để xác định một cá nhân.

HIPAA cho phép một số khoản phụ cấp cho dữ liệu không xác định, chẳng hạn như tiết lộ cho nghiên cứu hoặc cho các quan chức công cộng.

Từ nhận dạng đến xác định lại: có thể không mất nhiều.

Thật không may cho các tổ chức có thể hy vọng sử dụng khử nhận dạng như một biện pháp bảo vệ, nhiều người hiện coi đó là sự bảo vệ kém. Mọi người có thể được nhận dạng bằng nhiều hơn tên và số, nhờ các bộ dữ liệu chi tiết. Nếu một đối tượng dữ liệu, công việc của Google là ‘Thị trưởng và dữ liệu thô bao gồm cả thành phố, thì nó không mất nhiều thời gian để tìm ra ai là ai.  

Một trường hợp cực kỳ phổ biến làm nổi bật lỗ hổng nhận dạng đã xuất hiện vào năm 2006 với Netflix. Per Robert Lemos với SecurityF Focus, trong một cuộc thi để cải thiện thuật toán của công ty, Netflix đã phát hành một bộ gồm 2 triệu người đăng ký. Công ty đã xác định lại tập dữ liệu bằng cách xóa tên người dùng. Tuy nhiên, điều ngạc nhiên là các nhà nghiên cứu từ Austin đã có thể xác định người dùng. Họ đã làm như vậy bằng cách sử dụng dữ liệu có sẵn và điền vào chỗ trống từ các nguồn khác: kết hợp xếp hạng của người dùng với cơ sở dữ liệu công khai về điểm phim. Không cần phải nói, theo Epic.org, Netflix đã hủy cuộc thi.

Việc xác định lại cũng rất thiếu sót vì không có thỏa thuận chung nào về thông tin nhận dạng cá nhân. Là dữ liệu được xác định lại nếu địa chỉ IP vẫn còn? Ngày sinh thì sao? Các tiêu chuẩn tồn tại, bao gồm Cảng an toàn HIPAA, nhưng chúng có đủ không? Theo Privacy Analytics, một phần của nhóm các công ty IQVIA, Safe Harbor, không thực sự đảm bảo rằng rủi ro nhận dạng lại là thấp, ngoại trừ trong những trường hợp rất hạn chế. Đó là tin xấu cho các tổ chức y tế dựa vào nó, vì theo phần HIPAA § 164.514.2.ii, các khoản phụ cấp cho dữ liệu không nhận dạng chỉ được chấp nhận nếu không có bằng chứng nào có thể xác định lại dữ liệu. Các nghiên cứu gần đây trong mười năm qua, bao gồm Rủi ro đối với quyền riêng tư của bệnh nhân: Xác định lại bệnh nhân ở bệnh viện Maine và Vermont bây giờ có nghĩa là các tiêu chuẩn mới là cần thiết.  

Dữ liệu được mã hóa thì sao? Mã thông báo?

Dữ liệu được mã hóa và mã thông báo là những cách vững chắc để bảo vệ dữ liệu nhạy cảm. Đối với dữ liệu được mã hóa, tất cả thông tin nhạy cảm được loại bỏ và thay thế bằng các từ mã, số hoặc mã định danh duy nhất. Các mã ánh xạ tới cơ sở dữ liệu hoặc tài liệu khác hoạt động như một khóa. Thông tin được xác định lại bằng cách khớp mã với dữ liệu nhạy cảm tương ứng.  

Trong mã thông báo, chúng tôi tự động hóa quy trình, thay thế dữ liệu nhạy cảm bằng biến tham chiếu. Các bản đồ mã thông báo với cơ sở dữ liệu an toàn hơn chứa thông tin nhạy cảm. Khi xử lý thông tin, hệ thống sẽ phân tích mã thông báo đối với các bản ghi trong cơ sở dữ liệu an toàn. Nếu nó tìm thấy mã thông báo tương ứng phù hợp, xử lý tiếp tục sử dụng dữ liệu nhạy cảm. 

Dữ liệu được mã hóa và mã thông báo bảo vệ an toàn thông tin. Chúng hiệu quả vì chúng chỉ ẩn dữ liệu nhạy cảm. Nếu một nhà phân tích muốn xử lý dữ liệu mà không cần tham khảo chi tiết cá nhân, họ có thể. Tương tự, các bộ dữ liệu sử dụng mã nhận dạng hoặc mã thông báo sẽ an toàn hơn đối với hành vi trộm cắp. Nếu dữ liệu bị xâm phạm, dữ liệu nhạy cảm vẫn bị che giấu. Ví dụ: kẻ tấn công đánh cắp dữ liệu về doanh số bán thẻ tín dụng không thể thấy số thẻ nếu sử dụng mã thông báo. 

Tuy nhiên, hãy lưu ý rằng trong khi mã thông báo, dữ liệu được mã hóa và số nhận dạng duy nhất cung cấp bảo mật tốt hơn, chúng không làm cho dữ liệu ẩn danh. Dữ liệu sử dụng mã thông báo hoặc mã định danh vẫn phải tuân theo các quy định về quyền riêng tư. Luật riêng tư không chỉ liên quan đến vi phạm dữ liệu và truy cập. Pháp luật về quyền riêng tư hoạt động để giảm thiểu việc lạm dụng dữ liệu cá nhân. Miễn là dữ liệu có thể, với sự cho phép, được xác định lại, các thỏa thuận bảo mật phải được đưa ra. 

Dữ liệu ẩn danh: chúng tôi có thể nói cho bạn biết bạn là ai hoặc chúng tôi có thể?

Dữ liệu ẩn danh đề cập đến thông tin khi không thể xác định các cá nhân.  Bộ dữ liệu ẩn danh thực sự là một giấc mơ đam mê quyền riêng tư. Khả năng thu thập, lưu trữ và phân tích dữ liệu mà không có khả năng nhận dạng cá nhân tạo nên một biện pháp bảo vệ lý tưởng. Đối với các tổ chức quản lý để giữ dữ liệu của họ ẩn danh, lợi ích là rất lớn. Dữ liệu ẩn danh dễ bán hơn, xử lý, phân tích và giữ lại, vì nó đòi hỏi ít biện pháp bảo vệ hơn để bảo vệ. 

Ít quy tắc hơn được áp dụng: dữ liệu ẩn danh thường được miễn trừ khỏi các luật pháp về quyền riêng tư, bao gồm Quy định bảo vệ dữ liệu chung của E.U. Theo GDPR, thông tin không liên quan đến một người tự nhiên được xác định hoặc nhận dạng hoặc dữ liệu cá nhân được ẩn danh theo cách mà chủ thể dữ liệu không hoặc không còn nhận dạng được nữa không phải là yêu cầu riêng tư.

Làm thế nào để bạn làm cho dữ liệu ẩn danh? Hầu hết các kỹ thuật thuộc một trong ba loại: mật mã, khái quát hóa (còn được gọi là mã hóa) và ngẫu nhiên hóa. 

Phương pháp mã hóa mã hóa thông tin trong bộ lưu trữ, làm cho dữ liệu ẩn danh cho đến khi được giải mã để sử dụng. Điều này bảo vệ dữ liệu nhưng có nghĩa là nhận dạng lại có thể xảy ra khi dữ liệu được giải mã để xử lý. 

Kỹ thuật khái quát hóa mượn từ tổng hợp dữ liệu và khử nhận dạng, để cố tình xóa định danh và giảm dữ liệu chính xác. Ví dụ, theo khái quát hóa, chiều cao hoặc cân nặng của cá nhân trở thành một phạm vi, thay vì số chính xác. 

Ngẫu nhiên làm lệch kết quả bằng cách thêm dữ liệu và di chuyển các yếu tố xung quanh để kết quả nhận dạng lại có đầy lỗi. Lưu trữ dữ liệu khoa học xã hội Phần Lan Hướng dẫn quản lý dữ liệu từ cung cấp giải thích chuyên sâu về các kỹ thuật để ẩn danh dữ liệu định tính và định lượng.

Tại sao chúng ta có thể cần phải từ bỏ ý tưởng về dữ liệu ẩn danh hoàn toàn

Thật không may, khả năng dữ liệu cá nhân được ẩn danh có thể không còn là một lựa chọn. Sự khéo léo có thể được sử dụng để xác định lại các cá nhân là hoàn toàn đáng kinh ngạc. Viết cho tờ The Guardian, Olivia Solon liệt kê các ví dụ về việc sử dụng ảnh chụp paparazzi và nhật ký taxi không tên để thiết lập những người nổi tiếng xấu. Cory Doctorow viết cho BoingBiến.net rằng nhà báo Svea Eckert và nhà khoa học dữ liệu Andreas Dewes đã xác định chế độ thuốc MP MP của Đức thông qua dữ liệu được thu thập bởi các trình cắm. Vào tháng 7 năm 2023, nhà báo Gina Kolata của New York Times đã công bố bằng chứng cho thấy các nhà khoa học có thể xác định lại dữ liệu Điều tra dân số ẩn danh của Hoa Kỳ. Giữa những tiến bộ trong khoa học dữ liệu và một kho dữ liệu ngày càng tăng để lấp đầy các khoảng trống, khái niệm dữ liệu ẩn danh có thể trở nên vô nghĩa.

Vì vậy, nếu không có kỹ thuật nào trong số này bảo vệ hoàn toàn quyền riêng tư, chúng ta phải làm gì?

Đầu tiên, nhận ra rằng trong khi các bộ dữ liệu tổng hợp, không nhận dạng và ẩn danh không bảo vệ hoàn toàn quyền riêng tư, chúng vẫn cung cấp một số mức độ bảo vệ. Nếu dữ liệu của bạn được tổng hợp, không nhận dạng hoặc ẩn danh, thì ít có khả năng nó sẽ được đọc bởi các bộ xử lý hàng ngày. Rất may, lấy thông tin cá nhân từ dữ liệu được xử lý nhiều này đòi hỏi các công cụ và kỹ năng không có sẵn cho mỗi cá nhân.  

Thứ hai, lưu ý nếu bạn thấy những cụm từ này trong chính sách bảo mật hoặc điều khoản sử dụng mà thông tin cá nhân của bạn vẫn có thể truy cập được. Một dịch vụ thu thập dữ liệu ẩn danh vẫn có thể thu thập thông tin cá nhân. Các công ty chia sẻ thông tin tổng hợp hoặc không xác định vẫn đang chia sẻ thông tin cá nhân: cảm xúc của bạn về điều đó là gì? 

Nếu bạn điều hành một doanh nghiệp sử dụng tổng hợp, khử nhận dạng hoặc ẩn danh, hãy nhận ra rằng những điều này có thể là một biện pháp bảo vệ duy nhất của bạn. Bạn vẫn nên có các biện pháp bảo vệ vật lý, kỹ thuật và hành chính khác. Việc vi phạm dữ liệu đối với dữ liệu không xác định vẫn có thể khiến bạn phải trả giá, đặc biệt nếu có bằng chứng về việc có thể thu thập thông tin cá nhân. Sử dụng các kỹ thuật này như một công cụ, nhưng không phải là mục đích cuối cùng của các chương trình bảo mật và quyền riêng tư.

Xem thêm: Xu hướng vi phạm dữ liệu