Học tập liên kết: Có thực sự tốt hơn cho sự riêng tư và bảo mật của bạn?

Học tập liên kết (1)


Trừ khi bạn dành riêng để theo kịp những thông tin mới nhất về trí tuệ nhân tạo, bạn có thể chưa bao giờ nghe thấy thuật ngữ ’học tập liên kết trước đây. Mặc dù nó có thể không nổi bật như các xu hướng công nghệ khác như in 3D hoặc máy bay không người lái, ý nghĩa của nó đối với quyền riêng tư và học máy có thể dẫn đến việc sử dụng nhiều hơn trong những năm tới.

Phiên bản ngắn và đơn giản là học tập liên kết là một mô hình thay thế để cải thiện các thuật toán hiện đang thống trị nhiều khía cạnh trong cuộc sống của chúng ta, cho dù chúng là Facebook News News Feed hay Google Maps. Theo hệ thống truyền thống hơn, dữ liệu của chúng tôi được gửi đến một máy chủ trung tâm nơi nó được phân tích và thông tin liên quan được sử dụng để thay đổi thuật toán.

Học tập liên kết cung cấp một giải pháp nâng cao quyền riêng tư của người dùng vì phần lớn dữ liệu cá nhân lưu lại trên một thiết bị cá nhân. Các thuật toán tự đào tạo trực tiếp trên các thiết bị của người dùng và chỉ gửi lại các bản tóm tắt dữ liệu có liên quan, thay vì toàn bộ dữ liệu. Điều này cho phép các công ty cải thiện thuật toán của họ mà không cần phải thu thập tất cả dữ liệu của người dùng, cung cấp giải pháp tập trung vào quyền riêng tư hơn.

Học liên kết là gì?

Để không nói dối, đối với hầu hết mọi người, chiều sâu của việc học tập liên kết có vẻ phức tạp và khó hiểu. Lĩnh vực AI nằm ngoài phạm vi kiến ​​thức của nhiều người và liên quan đến cách thức toán học và logic nhiều hơn hầu hết chúng ta đều cảm thấy thoải mái với.

Mặc dù có những khó khăn này, học tập liên kết là một sự phát triển công nghệ thú vị và quan trọng, vì vậy, nó đáng để cố gắng để có được đầu óc của bạn xung quanh nó. Để làm cho mọi thứ dễ dàng, chúng tôi sẽ chia nhỏ các khái niệm và giải thích chúng theo cách đơn giản hóa để bạn có thể hiểu được bức tranh lớn.

Học máy và thuật toán

Trừ khi bạn dành cả ngày để cosplay những năm 1930, cuộc sống của bạn chứa đầy các thuật toán. Trong bối cảnh này, khi chúng ta đề cập đến các thuật toán, về cơ bản chúng ta có nghĩa là công thức hoặc bộ hướng dẫn được sử dụng để tìm ra vấn đề hoặc tính kết quả mong muốn.

Facebook, Instagram và Twitter sử dụng chúng để cung cấp nội dung được cá nhân hóa có khả năng khiến bạn quan tâm nhất, cũng như làm cho các nền tảng kiếm được nhiều tiền hơn. Công cụ tìm kiếm Google Google sử dụng các thuật toán tinh vi để biến các thuật ngữ tìm kiếm của bạn thành các trang về những gì nó nghĩ rằng bạn đang tìm kiếm. Email của bạn lọc thư rác bằng thuật toán, trong khi Waze tận dụng các thuật toán để tìm ra cách hiệu quả nhất để đi từ điểm A đến điểm B.

Có vô số thuật toán khác giúp chúng ta hoàn thành các nhiệm vụ, giữ cho chúng ta bị chiếm đóng hoặc ẩn nấp trong các quy trình hàng ngày.

Các công ty đang không ngừng cố gắng cải thiện các thuật toán này để mang lại cho bạn kết quả hiệu quả, chính xác và hiệu quả nhất, miễn là phù hợp với mục tiêu riêng của công ty – thường là kiếm tiền.

Nhiều thuật toán được sử dụng nhiều nhất của chúng tôi đã đi một chặng đường dài kể từ khi triển khai ban đầu. Nghĩ lại việc tìm kiếm thông qua Google vào cuối những năm 1990 hoặc đầu những năm 2000 – bạn phải cực kỳ cụ thể và kết quả thật tồi tệ so với ngày nay.

Vậy làm thế nào để những thuật toán này cải thiện?

Một phần chính của cách các thuật toán trở nên tốt hơn trong các nhiệm vụ của chúng liên quan đến học máy, đó là một lĩnh vực của trí tuệ nhân tạo. Các thuật toán học máy bắt đầu bằng cách lấy một mẫu dữ liệu, phân tích nó, sau đó sử dụng những gì họ đã học để hoàn thành nhiệm vụ hiệu quả hơn. Họ có thể cải thiện mà không cần phải có những thay đổi này được lập trình bởi một lực lượng bên ngoài, chẳng hạn như một nhà phát triển con người.

Học máy đã bùng nổ trong vài thập kỷ qua, cải thiện các thuật toán của chúng tôi, giúp chúng tôi có được kết quả tốt hơn và chuyển sang các lĩnh vực mới. Bởi vì tiện ích của nó, nó cũng đã là một công cụ kiếm tiền khổng lồ cho các công ty như Facebook, Google và nhiều người khác.

Tất cả bắt đầu với dữ liệu – nhóm dữ liệu càng lớn và số lượng điểm dữ liệu chất lượng cao càng lớn, các thuật toán học máy có thể chính xác hơn. Thuật toán càng hiệu quả thì càng kiếm được nhiều tiền, về cơ bản đã biến dữ liệu thành hàng hóa.

Những điều kiện này đã gây ra sự mở rộng lớn về lượng dữ liệu được thu thập trên người. Đối với hầu hết các phần, dữ liệu này được thu thập từ người dùng điện thoại, máy tính và các khu vực khác, sau đó được gửi đến một máy chủ nơi nó được phân tích để cải thiện thuật toán. Trong khi điều này có thường dẫn đến các dịch vụ tốt hơn và tăng sự tiện lợi, cũng đã có một sự đẩy lùi đáng kể từ những người lo lắng về quyền riêng tư của họ.

Có điều gì đó nham hiểm về những công ty này luôn biết vị trí của bạn, biết bạn là bạn của ai, biết toàn bộ lịch sử tìm kiếm của bạn và nhiều hơn thế nữa. Chắc chắn, có nhiều cách để tránh các loại thu thập dữ liệu này, nhưng các kỹ thuật nói chung quá không thực tế để hầu hết mọi người bận tâm.

Giữa một loạt các vụ bê bối về quyền riêng tư dữ liệu, như Facebook của Cambridge Cambridge Cambridge và công cụ vi phạm dữ liệu khổng lồ của Google +, các công ty đã bắt đầu chú ý. Không muốn bị chiếm đoạt, họ dường như đang nhìn vào các con đường để tiếp tục thúc đẩy các mục tiêu của mình mà không làm tăng sự tham gia của người dùng hoặc nhà lập pháp. Có lẽ thời khắc đầu nguồn là khi Mark Zuckerberg tuyên bố rằng Tương lai là riêng tư, tại hội nghị F8 năm nay.

Mặc dù có lẽ tốt nhất là nhìn vào phong trào này với sự hoài nghi, nhưng đã có một số phát triển tích cực liên quan đến quyền riêng tư của người dùng, một trong số đó là học tập liên kết.

Học tập liên kết

Thay vì lấy dữ liệu từ thiết bị người dùng đến máy chủ của chúng tôi, tại sao không nên chúng tôi gửi thuật toán đến dữ liệu?

Đây là khái niệm cốt lõi đằng sau việc học tập liên kết. Thuật ngữ này được đặt ra trong một bài báo năm 2016 được xuất bản bởi các nhân viên của Google và công ty vẫn luôn đi đầu trong lĩnh vực này.

học tập liên kết 1

Quá trình đào tạo học tập liên kết.

Học tập liên kết cải thiện thuật toán bằng cách gửi phiên bản hiện tại của thuật toán đến các thiết bị đủ điều kiện. Mô hình thuật toán này sau đó học từ dữ liệu riêng tư trên điện thoại của một nhóm người dùng được chọn. Khi nó kết thúc, một bản tóm tắt về kiến ​​thức mới sẽ được gửi lại cho máy chủ của công ty – dữ liệu không bao giờ rời khỏi điện thoại.

Để bảo mật, kiến ​​thức này thường được mã hóa trên đường trở về máy chủ. Để ngăn máy chủ không thể tìm ra dữ liệu riêng lẻ dựa trên bản tóm tắt mà nó đã nhận được, Google đã phát triển Tập hợp an toàn giao thức.

Giao thức này sử dụng mật mã để ngăn máy chủ truy cập vào các bản tóm tắt thông tin cá nhân. Theo sơ đồ này, máy chủ chỉ có thể truy cập vào bản tóm tắt sau khi được thêm vào và tính trung bình với kết quả từ hàng trăm hoặc hàng ngàn người dùng khác.

Hoặc, riêng tư khác biệt có thể được sử dụng để thêm nhiễu dữ liệu ngẫu nhiên đến một bản tóm tắt cá nhân, che khuất kết quả. Dữ liệu ngẫu nhiên này được thêm vào trước khi bản tóm tắt được gửi đến máy chủ, mang lại cho máy chủ một kết quả đủ chính xác để đào tạo thuật toán, mà không có dữ liệu tóm tắt thực tế được tiết lộ cho nó. Điều này bảo vệ sự riêng tư của cá nhân.

Các kỹ thuật như giao thức Tổng hợp an toàn và quyền riêng tư khác biệt là rất quan trọng để bảo vệ thông tin người dùng khỏi cả tổ chức và tin tặc. Không có chúng, học tập liên kết không thể đảm bảo quyền riêng tư của người dùng.

Khi các bản tóm tắt thông tin đã được gửi đến máy chủ một cách an toàn, chúng được sử dụng để cập nhật thuật toán. Quá trình được lặp đi lặp lại hàng ngàn lần, và các phiên bản thử nghiệm của thuật toán cũng được gửi đến các thiết bị người dùng khác nhau. Điều này cho phép các tổ chức đánh giá các phiên bản mới của thuật toán trên dữ liệu người dùng thực. Vì phân tích được thực hiện từ trong giới hạn của thiết bị người dùng, thuật toán có thể được dùng thử mà không phải gộp dữ liệu người dùng trên máy chủ trung tâm.

Khi các thử nghiệm được hoàn thành, mô hình thuật toán cập nhật được gửi đến các thiết bị người dùng để thay thế mô hình cũ. Thuật toán nâng cao sau đó được sử dụng trong các tác vụ thông thường của nó. Nếu mọi thứ đã đi theo kế hoạch, nó sẽ hiệu quả và chính xác hơn để đạt được kết quả của nó.

Toàn bộ chu trình sau đó lặp đi lặp lại nhiều lần:

  • Thuật toán mới nghiên cứu dữ liệu trên các thiết bị người dùng được chọn.
  • Nó gửi an toàn các bản tóm tắt dữ liệu người dùng này đến máy chủ.
  • Dữ liệu này sau đó được tính trung bình với kết quả từ những người dùng khác.
  • Thuật toán học hỏi từ thông tin này, tạo ra các bản cập nhật và kiểm tra chúng.
  • Một phiên bản nâng cao hơn của thuật toán được đưa ra cho người dùng.

Theo thời gian, thuật toán học hỏi từ dữ liệu người dùng và liên tục cải tiến mà không cần phải lưu trữ dữ liệu trên các máy chủ của công ty. Nếu bạn vẫn đang loay hoay xoay quanh việc học liên kết là gì và cách thức hoạt động, Google đã xuất bản phim hoạt hình này giải thích và giúp bạn hình dung ra phương pháp học tập liên kết một cách đơn giản.

Những lợi thế khác của việc học tập liên kết

Mô hình học tập liên kết cung cấp cho người dùng một số lợi ích khác trên sự riêng tư. Thay vì liên tục chia sẻ dữ liệu với máy chủ, quá trình học tập có thể được tiến hành khi thiết bị đang sạc, kết nối với wifi và không sử dụng, giảm thiểu những bất tiện mà người dùng gặp phải.

Điều này có nghĩa là người dùng aren lãng phí dữ liệu hoặc pin quý giá của họ khi họ ra ngoài. Bởi vì học tập liên kết chỉ chuyển một bản tóm tắt các dữ liệu có liên quan, chứ không phải là chính dữ liệu, quá trình kết thúc việc chuyển ít dữ liệu tổng thể hơn so với các mô hình học tập truyền thống.

Học tập liên kết cũng có thể cung cấp các mô hình thuật toán toàn cầu và cá nhân hóa. Nó có thể thu thập thông tin chuyên sâu từ một nhóm người dùng rộng hơn và kết hợp chúng với thông tin từ từng người dùng để cung cấp một mô hình hiệu quả hơn phù hợp với nhu cầu riêng biệt của họ.

Các ứng dụng của học tập liên kết

Học tập liên kết có một loạt các trường hợp sử dụng tiềm năng, đặc biệt là trong các tình huống trong đó vấn đề riêng tư xen kẽ với nhu cầu cải thiện thuật toán. Hiện tại, các dự án học tập liên kết nổi bật nhất đã được thực hiện trên điện thoại thông minh, nhưng các kỹ thuật tương tự có thể được áp dụng cho máy tính và thiết bị IoT như phương tiện tự trị.

Một số sử dụng hiện có và tiềm năng bao gồm:

Google Gboard

Việc triển khai quy mô lớn đầu tiên của học tập liên kết trong thế giới thực là một phần của Ứng dụng bàn phím Google, Gboard. Công ty nhằm mục đích sử dụng kỹ thuật để cải thiện các đề xuất từ ​​mà không ảnh hưởng đến quyền riêng tư của người dùng.

Theo phương pháp học máy cũ, việc phát triển các dự đoán bàn phím tốt hơn sẽ rất xâm lấn – mọi thứ chúng tôi đã nhập, tất cả các tin nhắn riêng tư và các tìm kiếm lạ của Google sẽ phải được gửi đến một máy chủ trung tâm để phân tích và ai biết dữ liệu nào khác có thể đã được sử dụng cho.

Rất may, Google đã chọn sử dụng phương pháp học tập liên kết của họ để thay thế. Vì mô hình thuật toán được đặt trên các thiết bị người dùng, nó có thể học từ các từ mà người dùng nhập vào, tóm tắt thông tin chính và sau đó gửi lại cho máy chủ. Những tóm tắt này sau đó được sử dụng để nâng cao tính năng văn bản dự đoán của Google, sau đó được kiểm tra và đưa ra cho người dùng.

Phiên bản mới của thuật toán sẽ cung cấp trải nghiệm được cải thiện nhờ vào những gì nó đã học được từ quy trình và chu trình lặp lại. Điều này cho phép người dùng liên tục cải thiện các đề xuất bàn phím mà không phải thỏa hiệp quyền riêng tư của họ.

Chăm sóc sức khỏe

Quyền riêng tư và bảo mật dữ liệu vô cùng phức tạp trong ngành chăm sóc sức khỏe. Nhiều tổ chức chứa một lượng đáng kể cả dữ liệu bệnh nhân nhạy cảm và có giá trị, cũng được tin tặc săn lùng ráo riết.

Không ai muốn một chẩn đoán lúng túng bị rò rỉ ra công chúng. Sự giàu có của dữ liệu chứa trong các kho lưu trữ này rất hữu ích cho các trò gian lận như trộm cắp danh tính và gian lận bảo hiểm. Bởi vì số lượng lớn dữ liệu và rủi ro lớn mà ngành y tế phải đối mặt, hầu hết các quốc gia đã thực thi luật nghiêm ngặt về cách quản lý dữ liệu y tế, chẳng hạn như các quy định HIPAA của Hoa Kỳ.

Các luật này khá hạn chế và đi kèm với các hình phạt đáng kể nếu một tổ chức vi phạm chúng. Đây thường là một điều tốt cho những bệnh nhân lo lắng về việc dữ liệu của họ bị xử lý sai. Tuy nhiên, những loại luật này cũng gây khó khăn cho việc sử dụng một số dạng dữ liệu trong các nghiên cứu có thể giúp cho những đột phá y học mới.

Do tình hình pháp lý phức tạp này, các tổ chức như Owkin và Intel đang nghiên cứu làm thế nào để học tập liên kết có thể được tận dụng để bảo vệ sự riêng tư của bệnh nhân đồng thời đưa dữ liệu vào sử dụng.

Owkin đang làm việc trên một nền tảng sử dụng học tập liên kết để bảo vệ dữ liệu bệnh nhân trong các thí nghiệm xác định độc tính của thuốc, dự đoán sự tiến hóa của bệnh và cũng ước tính tỷ lệ sống cho các loại ung thư hiếm gặp.

Năm 2018, Intel hợp tác với Trung tâm Phân tích và Phân tích hình ảnh y sinh của Đại học Pennsylvania để chứng minh cách học liên kết có thể được áp dụng vào hình ảnh y tế như một bằng chứng về khái niệm.

Sự hợp tác tiết lộ rằng theo cách tiếp cận học tập liên kết, mô hình học sâu đặc biệt của họ có thể được đào tạo để trở thành 99% chính xác như mô hình tương tự được đào tạo thông qua các phương pháp truyền thống.

Xe tự hành

Học tập liên kết có thể hữu ích cho các phương tiện tự lái theo hai cách chính. Đầu tiên là nó có thể bảo vệ sự riêng tư của dữ liệu người dùng – nhiều người không thích ý tưởng về hồ sơ du lịch của họ và thông tin lái xe khác được tải lên và phân tích trên một máy chủ trung tâm. Học tập liên kết có thể nâng cao quyền riêng tư của người dùng bằng cách chỉ cập nhật các thuật toán với bản tóm tắt của dữ liệu này, thay vì tất cả thông tin người dùng.

Lý do quan trọng khác để áp dụng phương pháp học tập liên kết là nó có khả năng làm giảm độ trễ. Trong một viễn cảnh có thể xảy ra trong tương lai khi có một số lượng lớn xe tự lái trên đường của chúng tôi, chúng sẽ cần có khả năng phản ứng nhanh với nhau trong các sự cố an toàn.

Học tập trên nền tảng đám mây truyền thống liên quan đến việc truyền dữ liệu lớn và tốc độ học tập chậm hơn, do đó có khả năng học tập liên kết có thể cho phép các phương tiện tự trị hành động nhanh chóng và chính xác hơn, giảm tai nạn và tăng cường an toàn.

Tuân thủ quy định

Học tập liên kết cũng có thể giúp các tổ chức cải thiện các mô hình thuật toán của họ mà không làm lộ dữ liệu bệnh nhân hoặc kết thúc sai quy định. Các luật, chẳng hạn như Quy định bảo vệ dữ liệu chung của Châu Âu (GDPR) và Đạo luật về tính di động của bảo hiểm sức khỏe Hoa Kỳ năm 1996, có các quy định nghiêm ngặt đối với dữ liệu của các cá nhân và cách sử dụng nó.

Các luật này thường được áp dụng để bảo vệ quyền riêng tư của cá nhân, điều đó có nghĩa là việc học tập liên kết có khả năng mở ra những cơ hội mới bằng cách có thể học từ dữ liệu trong khi vẫn giữ an toàn và trong các hướng dẫn quy định.

Bảo mật và quyền riêng tư của học tập liên kết

Học tập liên kết mở ra một thế giới cơ hội mới để đào tạo các mô hình học máy mà không ảnh hưởng đến quyền riêng tư dữ liệu. Tuy nhiên, nó cần được thực hiện cẩn thận để giảm thiểu các vấn đề bảo mật và khả năng lộ dữ liệu người dùng.

Một số vấn đề chính, cũng như các giải pháp tiềm năng của chúng, bao gồm:

Đánh chặn tóm tắt dữ liệu người dùng

Cung cấp đầy đủ quyền riêng tư và bảo mật thường liên quan đến sự kết hợp của các công nghệ khác nhau cũng như chính sách. Mặc dù học tập liên kết cung cấp cho chúng ta những cách mới để bảo vệ dữ liệu, nhưng nó vẫn cần được thực hiện cùng với các cơ chế bổ sung.

Một ví dụ về điểm yếu tiềm ẩn là khi tóm tắt dữ liệu của người dùng được gửi từ thiết bị đến máy chủ trung tâm, họ có thể bị chặn bởi những tin tặc có thể sử dụng chúng để tìm ra dữ liệu gốc.

Rất may, vấn đề này có một giải pháp tương đối đơn giản mà chúng tôi đã triển khai trong nhiều lĩnh vực bảo mật thông tin – chúng tôi chỉ cần mã hóa dữ liệu bằng thuật toán thích hợp khi nó di chuyển giữa hai điểm.

Tìm ra dữ liệu gốc từ bản tóm tắt của người dùng

Trong một số trường hợp nhất định, tóm tắt dữ liệu người dùng có thể được sử dụng để xác định thông tin ban đầu. Nếu một bên độc hại gửi truy vấn đến mô hình thông qua API, có thể xây dựng lại dữ liệu, mặc dù đây không phải là vấn đề duy nhất đối với việc học liên kết.

Nếu kẻ tấn công hoặc tổ chức sở hữu máy chủ có thể tìm ra dữ liệu người dùng ban đầu theo cách này, nó sẽ hoàn toàn đánh bại mục đích của việc thực hiện học tập liên kết. Có hai cơ chế chính có thể được triển khai cùng với việc học tập được liên kết để ngăn điều này xảy ra: giao thức Tổng hợp bảo mật của Google và bảo mật khác biệt.

Các Giao thức tập hợp an toàn sử dụng tính toán của nhiều bên để tính trung bình của một nhóm các bản tóm tắt dữ liệu người dùng, mà không tiết lộ các bản tóm tắt dữ liệu của bất kỳ cá nhân nào cho máy chủ hoặc bất kỳ bên nào khác.

Trong hệ thống này, mỗi bản tóm tắt của người dùng được mã hóa trước khi họ rời khỏi thiết bị người dùng và họ không thể được giải mã bởi máy chủ cho đến khi chúng được thêm vào cùng nhau và tính trung bình với một số bản tóm tắt người dùng khác. Điều này cho phép máy chủ huấn luyện mô hình của nó ở mức trung bình của người dùng, mà không để lộ các bản tóm tắt riêng lẻ có thể được sử dụng để khám phá dữ liệu riêng tư của riêng lẻ.

Secure Aggregation không chỉ ngăn máy chủ truy cập vào bản tóm tắt của người dùng mà còn giúp người đàn ông đứng giữa tấn công khó khăn hơn nhiều.

Tùy chọn khác là riêng tư khác biệt, trong đó bao gồm một loạt các kỹ thuật liên quan liên quan đến một lượng nhiễu cụ thể được thêm vào dữ liệu. Tiền đề chính của quyền riêng tư khác biệt là để dữ liệu của người dùng được giữ riêng tư, các truy vấn đến cơ sở dữ liệu sẽ không tiết lộ liệu một cá nhân có được bao gồm trong dữ liệu hay không, thông tin của họ là gì.

Để ngăn các truy vấn tiết lộ thông tin này, một số tùy chọn khác nhau có thể được sử dụng để thêm nhiễu vào dữ liệu. Nhiễu dữ liệu này được thêm vào trước khi nó rời khỏi thiết bị người dùng, ngăn cả máy chủ và kẻ tấn công truy cập vào các bản cập nhật ở dạng ban đầu.

Ngộ độc mô hình

Học tập liên kết mở ra cơ hội cho những kẻ thù nghịch với mô hình thuật toán độc hại. Về cơ bản, điều này có nghĩa là một diễn viên độc hại có thể làm hỏng mô hình thông qua thiết bị của riêng họ hoặc bằng cách tiếp quản các thiết bị của các bên khác có liên quan đến việc đào tạo mô hình thuật toán.

Những cuộc tấn công đã được khám phá chi tiết bởi Bagdasaryan et al. trong họ Làm thế nào để học tập liên kết ngược giấy. Theo mô hình học tập liên kết, kẻ tấn công có khả năng chiếm lấy một hoặc nhiều người tham gia.

Trong một số tình huống nhất định, Nó có thể giúp họ kiểm soát dữ liệu của từng người tham gia mà họ đã tiếp quản, để thay đổi cách dữ liệu đó được đào tạo cục bộ, để thay đổi các siêu dữ liệu như tốc độ học tập và trọng số của mô hình riêng lẻ (trước khi nó được gửi đến máy chủ để tổng hợp). Nó cũng có thể thay đổi cách tiếp cận của mỗi người tham gia chương trình đào tạo địa phương từ vòng này sang vòng khác.

Với những khả năng này, những kẻ tấn công có thể tiêm vào các cửa hậu có thể sửa đổi các thuật toán theo mục đích riêng của chúng. Theo số liệu từ nghiên cứu, việc đầu độc mô hình có hiệu quả hơn nhiều so với các cuộc tấn công ngộ độc dữ liệu khác.

Trong một nhiệm vụ dự đoán từ có sự tham gia của 80.000 người tham gia, các nhà nghiên cứu có thể đạt được độ chính xác 50% cửa sau bằng cách thỏa hiệp chỉ tám trong số những người tham gia. Để đạt được hiệu quả tương tự bằng cách đầu độc dữ liệu, các nhà nghiên cứu đã phải thỏa hiệp 400 người tham gia.

Một trong những vấn đề lớn nhất xuất phát từ việc học tập liên kết và giao thức Tổng hợp bảo mật nhằm mục đích giữ dữ liệu người dùng ở chế độ riêng tư. Khi được triển khai chính xác, điều này khiến máy chủ không thể phát hiện ra sự bất thường trong một bản tóm tắt người dùng cá nhân.

Như chúng tôi đã đề cập ở trên, giao thức Tổng hợp bảo mật chỉ cho phép truy cập vào bản tóm tắt của người dùng sau khi chúng được thêm vào cùng với dữ liệu người dùng khác. Bởi vì các bản tóm tắt có thể được sàng lọc riêng lẻ, điều này khiến cho không thể thấy sự bất thường có thể nằm trong chúng, tạo ra các cuộc tấn công đầu độc mô hình là cách hoàn hảo để lẻn vào.

Ở giai đoạn này, các cuộc tấn công và phòng thủ có thể của chúng cần được nghiên cứu kỹ hơn.

Giữ mô hình riêng tư

Các mô hình thuật toán tinh vi có thể trị giá hàng triệu, điều này khiến chúng trở thành mục tiêu của những tên trộm. Họ có thể sử dụng chúng để kiếm tiền theo cách tương tự như các công ty đằng sau các thuật toán làm, hoặc thậm chí tận dụng chúng cho các mục đích bất hợp pháp. Nó không chỉ cứu những tên trộm đầu tư số tiền khổng lồ vào việc xây dựng mô hình, mà còn có thể làm giảm giá trị ban đầu.

Các công ty cần bảo vệ tài sản trí tuệ của họ và có vẻ như gửi mô hình trực tiếp đến các thiết bị của người dùng có thể dễ dàng dẫn đến những mô hình này được tiếp xúc với bất cứ ai muốn đưa chúng. Tuy nhiên, có những giải pháp mà các công ty có thể sử dụng để bảo vệ các mô hình thuật toán của họ.

Một trong số đó là tận dụng sự chia sẻ bí mật của tính toán đa đảng. Điều này cho phép các tổ chức che giấu trọng số mô hình bằng cách phân phối các mảnh của nó trên các thiết bị. Theo hệ thống này, không ai trong số các bên nắm giữ bí mật có thể biết toàn bộ mô hình.

Điều này cho phép các tổ chức đẩy các mô hình đào tạo thuật toán của họ lên các thiết bị mà không phải lo lắng về việc bị đánh cắp tài sản trí tuệ.

Hạn chế của học tập liên kết

Ngoài các vấn đề bảo mật tiềm ẩn, việc học tập liên kết còn có một số hạn chế khác khiến nó không thể trở thành liều thuốc để giải quyết tất cả các vấn đề về quyền riêng tư dữ liệu của chúng tôi.

Một xem xét là khi so sánh với các phương pháp học máy truyền thống, học tập liên kết đòi hỏi nhiều năng lượng và bộ nhớ thiết bị cục bộ hơn đáng kể để đào tạo mô hình. Tuy nhiên, nhiều thiết bị mới có sức mạnh dồi dào cho các chức năng này và cách tiếp cận này cũng dẫn đến một lượng dữ liệu nhỏ hơn được chuyển đến các máy chủ trung tâm, làm giảm việc sử dụng dữ liệu. Nhiều người dùng có thể thấy sự đánh đổi này có lợi, miễn là thiết bị của họ đủ mạnh.

Một vấn đề kỹ thuật khác liên quan đến băng thông. Học tập liên kết được thực hiện qua wifi hoặc 4G, trong khi học máy truyền thống xảy ra trong các trung tâm dữ liệu. Tốc độ băng thông của wifi hoặc 4G thấp hơn so với tốc độ được sử dụng giữa các nút làm việc và máy chủ tại các trung tâm này.

Băng thông cho các thiết bị đã tăng lên nhanh chóng như sức mạnh tính toán của chúng trong nhiều năm qua, do đó băng thông không đủ có thể có khả năng gây ra một nút cổ chai tăng độ trễ và làm cho quá trình học tập chậm hơn khi so sánh với cách tiếp cận truyền thống.

Nếu đào tạo thuật toán được tiến hành trong khi thiết bị đang được sử dụng, nó sẽ làm giảm hiệu suất của thiết bị. Google đã khắc phục vấn đề này bằng cách chỉ đào tạo các thiết bị khi chúng không hoạt động, bật và cắm vào ổ cắm. Trong khi điều này giải quyết vấn đề, nó làm chậm chu trình học, bởi vì đào tạo chỉ có thể được thực hiện vào thời gian thấp điểm.

Một thách thức nữa là các thiết bị rơi ra trong quá trình đào tạo – chúng có thể được chủ sở hữu đưa vào sử dụng, tắt hoặc trải qua một số sự gián đoạn khác. Dữ liệu của các thiết bị rơi ra có thể không được sử dụng đúng cách, điều này có thể dẫn đến một mô hình thuật toán kém chính xác hơn.

Được liên kết học tập cách mới về phía trước cho học máy?

Học tập liên kết là một mô hình đào tạo tương đối mới và nó cho thấy tiềm năng trong một số ứng dụng khác nhau. Bởi vì nó vẫn còn trong giai đoạn đầu của nghiên cứu, quá trình cần nghiên cứu nhiều hơn nữa trước khi tất cả các ứng dụng có thể được xác định, cũng như các rủi ro bảo mật và quyền riêng tư tiềm ẩn mà nó phải đối mặt.

Cho đến lúc đó, nó khó có thể nói chắc chắn rằng cách tiếp cận sẽ được thực hiện rộng rãi như thế nào trong tương lai. Tin vui là chúng tôi đã thấy nó được triển khai hiệu quả trong thế giới thực với Google Bảng Gboard.

Tuy nhiên, do một số hạn chế đã được thảo luận trước đó, nó không có khả năng học tập liên kết để thay thế các mô hình học tập truyền thống trong tất cả các kịch bản. Tương lai cũng sẽ phụ thuộc vào việc cam kết bảo mật các công ty công nghệ lớn của chúng ta thực sự như thế nào. Ở giai đoạn này, chúng ta có lý do chính đáng để hoài nghi.

Xem thêm: Thống kê vi phạm dữ liệu năm 2019

Kim Martin Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map