Федеральне навчання: чи справді це краще для вашої конфіденційності та безпеки?

Федеративне навчання (1)

Якщо ви не присвячені тому, щоб бути в курсі останніх питань штучного інтелекту, ви, можливо, раніше ніколи не чули термін “федеральне навчання”. Хоча це може бути не настільки помітним, як інші технологічні тенденції, такі як 3D-друк або безпілотники, її наслідки для конфіденційності та машинного навчання можуть призвести до набагато більшого використання в найближчі роки.

Коротка і проста версія полягає в тому, що федеральне навчання – це альтернативна модель вдосконалення алгоритмів, які зараз домінують у багатьох аспектах нашого життя, будь то News News або Google Maps. За більш традиційною системою наші дані надсилаються на центральний сервер, де вони аналізуються, а відповідна інформація використовується для зміни алгоритму.

Федеративне навчання пропонує рішення, яке підвищує конфіденційність користувачів, оскільки більшість особистих даних зберігається на пристрої людини. Алгоритми навчаються безпосередньо на пристроях користувача та надсилають назад лише відповідні резюме даних, а не дані в цілому. Це дозволяє компаніям вдосконалювати свої алгоритми без необхідності збирати всі дані користувача, забезпечуючи більш орієнтоване на конфіденційність рішення.

Що таке федеративне навчання?

Не будемо брехати, для більшості людей глибина об’єднаного навчання може здаватися складною і важкою для розуміння. Поле ШІ далеко поза сферою знань багатьох людей і передбачає набагато більше математики та логіки, ніж більшості з нас комфортно.

Незважаючи на ці труднощі, федеративне навчання є цікавою та важливою технічною розробкою, тому варто спробувати обійти голову. Щоб полегшити справи, ми розбимо поняття та пояснимо їх спрощеним чином, щоб ви могли зрозуміти велику картину.

Машинне навчання та алгоритми

Якщо ви не проводите свої дні, граючи в 1930-х роках, ваше життя наповнене алгоритмами. У цьому контексті, коли ми маємо на увазі алгоритми, ми по суті маємо на увазі формули або набори інструкцій, які використовуються для вирішення проблеми або обчислення бажаного результату.

Facebook, Instagram та Twitter використовують їх для доставки персоналізованого контенту, який, швидше за все, вас зацікавить, а також заробляє на платформах більше грошей. Пошукова система Google використовує складні алгоритми, щоб перетворити пошукові терміни на сторінки того, що він думає, що ви шукаєте. Ваш електронний лист відфільтровує спам за допомогою алгоритмів, тоді як Waze використовує алгоритми, щоб визначити найефективніший спосіб дістатися з точки А до точки Б.

Існує незліченна кількість інших алгоритмів, які допомагають нам виконувати завдання, тримають нас зайнятими або ховаються під кришкою повсякденних процесів.

Компанії є постійно намагаюся вдосконалювати ці алгоритми, щоб отримати найбільш ефективні, точні та ефективні результати, доки це узгоджується з власними цілями компанії – зазвичай заробляють гроші.

Багато наших алгоритмів, які найчастіше використовуються, пройшли довгий шлях з моменту їх початкового розгортання. Подумайте про пошук через Google наприкінці дев’яностих чи на початку 2000-х – вам довелося бути неймовірно конкретним, а результати були жахливими порівняно з сьогоднішнім днем.

То як удосконалити ці алгоритми?

Основна частина того, як алгоритми покращуються у своїх завданнях, включає машинне навчання, яке є підполем штучного інтелекту. Алгоритми машинного навчання починаються з відбору зразків даних, аналізуючи їх використовуючи те, що вони навчилися ефективніше виконувати завдання. Вони здатні вдосконалюватися, не вимагаючи, щоб ці зміни запрограмовані зовнішніми силами, такими як людський розробник.

В останні кілька десятиліть машинне навчання процвітало, вдосконалюючи наші алгоритми, допомагаючи нам отримувати кращі результати та рухатися в нові сфери. Через свою корисність він також був величезний гроші для компаній наприклад, Facebook, Google та багато інших.

Все починається з даних – чим більший пул даних, тим більша кількість високоякісних точок даних, тим точнішими можуть бути ці алгоритми машинного навчання. Чим ефективніший алгоритм, тим більше грошей він може заробити, що по суті перетворило дані в товар.

Ці умови спричинили масове розширення кількості даних, які збираються на людей. Здебільшого ці дані збираються з телефонів, комп’ютерів та інших областей користувачів, а потім надсилаються на сервер, де їх аналізують для вдосконалення алгоритму. Поки це є часто призводить до кращих послуг та підвищення зручності, також спостерігається значна відмова тих, хто турбується про свою конфіденційність.

Є щось зловісне, коли ці компанії завжди знають ваше місцезнаходження, знають, з ким ви дружите, знаєте всю вашу історію пошуку та багато іншого. Звичайно, існують способи уникнути такого типу збору даних, але методи, як правило, занадто недоцільно для більшості людей турбувати.

На тлі ряду скандалів щодо конфіденційності даних, таких як фіаско Cambridge Analytica Facebook та масове порушення даних Google +, компанії почали помічати це. Не хочуть бути узурпованими, вони, схоже, дивляться на шляхи продовження просування своїх цілей, не піднімаючи гнів своїх користувачів чи законодавців. Можливо, переломним моментом було те, коли Марк Цукерберг оголосив, що “Майбутнє приватне” на цьогорічній конференції F8.

Хоча, мабуть, найкраще дивитися на цей рух скептично, проте були певні позитивні зрушення щодо конфіденційності користувачів, одним з яких є федеральне навчання..

Федеративне навчання

Чому ми не надсилаємо дані з пристроїв користувача на наш сервер, чому ми не надсилаємо алгоритм до даних?

Це основна концепція федеративного навчання. Цей термін був введений в документі 2016 року, опублікованому співробітниками Google, і компанія залишається на передньому плані галузі.

федеральне навчання 1

Федеративний навчальний процес навчання.

Федеральне навчання покращує алгоритми, надсилаючи поточну версію алгоритму на придатні пристрої. Ця модель алгоритму потім дізнається з приватних даних на телефонах вибраної групи користувачів. Коли вона закінчиться, підсумок нових знань надсилається на сервер компанії – самі дані ніколи не залишають телефон.

Для безпеки ці знання, як правило, шифруються під час повернення до сервера. Щоб сервер не міг з’ясувати окремі дані на основі отриманих резюме, Google розробив Безпечна агрегація протокол.

Цей протокол використовує криптографію для запобігання доступу сервера до окремих інформаційних резюме. За цією схемою сервер може отримувати доступ до резюме лише після того, як він був доданий і усереднений з результатами сотень чи тисяч інших користувачів.

Як варіант, диференціальна конфіденційність може використовуватися для додавання випадкових шумів даних до резюме людини, затушовуючи результати. Ці випадкові дані додаються перед тим, як резюме буде надіслане на сервер, що дає серверу результат, достатньо точний для алгоритмічної підготовки, без виявлення фактичних підсумкових даних. Це зберігає конфіденційність особи.

Такі методи, як протокол захищеної агрегації та диференціальна конфіденційність, мають вирішальне значення для захисту інформації користувачів як від організації, так і від хакерів. Без них федеральне навчання не могло б забезпечити конфіденційність користувачів.

Після того, як інформаційні резюме надійно відправлені на сервер, вони використовуються для оновлення алгоритму. Процес повторюється тисячі разів, і тестові версії алгоритму також надсилаються на різні користувацькі пристрої. Це дозволяє організаціям оцінювати нові версії алгоритмів за реальними даними користувачів. Оскільки аналіз проводиться з обмежених можливостей користувальницьких пристроїв, алгоритми можна перевірити без об’єднання даних користувачів на центральному сервері.

Після завершення тестів оновлена ​​модель алгоритму надсилається на пристрої користувача для заміни старого. Потім розширений алгоритм використовується у своїх звичайних завданнях. Якщо все пішло за планом, це буде ефективнішим і точнішим у досягненні своїх результатів.

Потім весь цикл повторюється знову і знову:

  • Новий алгоритм вивчає дані про вибрані користувацькі пристрої.
  • Він надійно надсилає резюме цих даних користувачів на сервер.
  • Потім ці дані порівнюються за результатами інших користувачів.
  • Алгоритм вчиться на цій інформації, виробляє оновлення та тестує їх.
  • Більш просунута версія алгоритму висувається користувачам.

З часом алгоритм вчиться на даних користувачів і постійно вдосконалюється, не маючи необхідності зберігати дані на серверах компанії. Якщо ви все ще намагаєтесь обернути голову навколо того, що таке об’єднане навчання, і як воно працює, Google опублікував цей мультфільм, в якому пояснюється та допомагає вам просто уявити підхід федеративного навчання..

Інші переваги федеративного навчання

Федеративна модель навчання пропонує користувачам ряд інших переваг, крім приватності. Замість того, щоб постійно обмінюватися даними з сервером, процес навчання може проводитися, коли пристрій заряджається, підключається до wifi та не використовується, мінімізація незручностей, з якими стикаються користувачі.

Це означає, що користувачі не витрачають свої дорогоцінні дані або акумулятор, коли вони знаходяться на вулиці. Оскільки федеральне навчання передає лише зведення релевантних даних, а не самі дані, процес закінчує передачу в цілому менше даних, ніж у традиційних моделях навчання.

Федеративне навчання може також забезпечувати як глобальні, так і персоналізовані алгоритмічні моделі. Він може отримати уявлення про більш широку групу користувачів та поєднати їх з інформацією окремого користувача, щоб забезпечити більш ефективну модель, що відповідає їх унікальним потребам.

Застосування об’єднаного навчання

Федеративне навчання має широкий спектр можливих випадків використання, особливо в ситуаціях, коли проблеми конфіденційності перетинаються з необхідністю вдосконалення алгоритмів. Наразі найвидатніші федеральні навчальні проекти проводились на смартфонах, але ті ж методики можна застосовувати і до комп’ютерів та пристроїв IoT, як автономні транспортні засоби.

Деякі з існуючих та потенційних цілей використання:

Google Gboard

Перше масштабне розгортання федеративного навчання в реальному світі було частиною цього Додаток Google для клавіатури, Gboard. Компанія мала на меті використовувати техніку для вдосконалення пропозицій щодо слів без шкоди для конфіденційності користувачів.

За старого підходу до машинного навчання, розробка кращих прогнозів на клавіатурі була б надзвичайно інвазивною – все, що ми набрали, усі наші приватні повідомлення та дивні пошуки в Google повинні були бути відправлені на центральний сервер для аналізу, і хто знає, які ще дані можна було використовувати для.

На щастя, Google вирішив скористатися своїм федеральним підходом до навчання. Оскільки алгоритмічна модель розміщена на пристроях користувача, вона може вивчити слова, які користувачі вводять, узагальнити ключову інформацію та потім відправити її назад на сервер. Ці підсумки потім використовуються для вдосконалення функції передбачуваного тексту Google, яка потім тестується та висилається користувачам.

Нова версія алгоритму запропонує покращений досвід завдяки тому, що він дізнався з процесу, і цикл повторюється. Це дозволяє користувачам постійно вдосконалювати пропозиції клавіатури, не порушуючи їх конфіденційність.

Охорона здоров’я

Конфіденційність та безпека даних надзвичайно складні в галузі охорони здоров’я. Багато організацій містять значну кількість як чутливих, так і цінних даних про пацієнтів, що також активно шукають хакери.

Ніхто не хоче, щоб бентежливий діагноз просочився до публіки. Багатство даних, що містяться в цих сховищах, надзвичайно корисні для афери, як крадіжка особи та шахрайство зі страхуванням. Через велику кількість даних та величезні ризики, з якими стикається галузь охорони здоров’я, більшість країн застосовують суворі закони щодо того, як слід керувати даними про здоров’я, наприклад, правила HIPAA США.

Ці закони є досить обмежуючими і мають суттєві покарання, якщо організація їх порушує. Це, як правило, добре для пацієнтів, які переживають за неправильне поводження з ними. Однак, ці типи законодавства також ускладнюють використання деяких форм даних у дослідженнях, які можуть допомогти в нових медичних проривах.

Через цю складну правову ситуацію досліджуються такі організації, як Овкін та Intel як федеральне навчання може бути використане для захисту конфіденційності пацієнтів, а також використання даних для використання.

Овкін працює над платформою, яка використовує об’єднане навчання для захисту даних про пацієнтів в експериментах, що визначають токсичність ліків, прогнозують еволюцію захворювання, а також оцінюють показники виживання для рідкісних видів раку.

У 2018 році Intel співпрацювала з Центром біомедичних зображень та аналітикою університету Пенсільванії, щоб продемонструвати, як федеральне навчання може бути застосоване до медичних зображень як доказ концепції.

Співпраця виявила, що за федеративного підходу до навчання їх спеціальна модель глибокого навчання може бути навчена бути такою 99 відсотків настільки ж точні, як та сама модель, що навчається традиційними методами.

Автономні транспортні засоби

Сполучене навчання може бути корисним для самостійного керування транспортними засобами двома основними способами. Перший полягає в тому, що він може захистити конфіденційність даних користувачів – багатьом людям не подобається ідея завантаження та аналізу їхніх даних про подорожі та іншої інформації про водіння на центральному сервері. Об’єднане навчання могло б підвищити конфіденційність користувачів, лише оновивши алгоритми з підсумками цих даних, а не всю інформацію про користувача.

Іншою ключовою причиною прийняття федеративного підходу до навчання є те, що він може потенційно зменшити затримки. У ймовірному майбутньому сценарії, коли на наших дорогах є велика кількість автомобілів, що керують самостійно, їм потрібно буде мати можливість швидко реагувати один на одного під час аварій з безпекою.

Традиційне хмарне навчання передбачає велику передачу даних і повільніший темп навчання, тому існує ймовірність цього федеральне навчання могло б дозволити автономним транспортним засобам діяти швидше та акуратніше, зменшуючи ДТП та підвищуючи безпеку.

Дотримання регулювання

Федеративне навчання також може допомогти організаціям вдосконалити свої алгоритмічні моделі, не піддаючи даних про пацієнтів і не закінчуючи неправильну сторону правил. Закони, такі як Загальний європейський регламент про захист даних (GDPR) та Закон про переносимість медичного страхування США 1996 р., Мають чіткі регламенти щодо даних осіб та способів їх використання.

Ці закони, як правило, діють для захисту конфіденційності людей, а це означає, що федеральне навчання може потенційно відкрити нові можливості, маючи можливість вчитись із даних, зберігаючи їх у безпеці і в межах нормативних вказівок.

Безпека та конфіденційність об’єднаного навчання

Сполучене навчання відкриває світ нових можливостей для моделей машинного навчання без шкоди для конфіденційності даних. Однак її потрібно ретельно реалізовувати, щоб пом’якшити проблеми безпеки та можливість викриття даних користувачів.

Деякі з основних проблем, а також їх потенційні рішення включають:

Перехоплення резюме даних користувачів

Забезпечення належної конфіденційності та безпеки, як правило, включає поєднання різних технологій, а також політики. Хоча федеративне навчання дає нам нові способи захисту даних, його все одно потрібно впроваджувати разом із додатковими механізмами.

Одним із прикладів потенційної слабкої сторони є те, що коли резюме користувачів користувачів надсилаються з пристрою на центральний сервер, їх можуть перехопити хакери, які могли б використовувати їх для з’ясування вихідних даних.

На щастя, ця проблема має досить просте рішення, яке ми вже впроваджуємо в багатьох сферах інформаційної безпеки – нам просто потрібно зашифрувати дані відповідним алгоритмом, коли вони рухаються між двома точками.

З’ясування вихідних даних із резюме користувачів

У певних сценаріях резюме даних користувачів може бути використане для визначення вихідної інформації. Якщо зловмисна сторона надсилає запити до моделі через API, можливо, можна реконструювати дані, хоча це не є унікальною проблемою для об’єднаного навчання.

Якби зловмисники або організації, що володіють серверами, могли з’ясувати оригінальні дані користувача таким чином, це було б повністю перемогти мету впровадження федеративного навчання. Існує два ключових механізми, які можуть бути застосовані поряд із об’єднаним навчанням, щоб запобігти цьому: протокол безпечної агрегації Google та диференціальна конфіденційність.

The Протокол безпечної агрегації використовує багатосторонні обчислення для обчислення середнього значення групи зведених даних користувачів, не розкриваючи зведені дані будь-якої окремої особи на сервері або будь-якій іншій стороні.

У цій системі кожен із резюме користувачів шифрується до того, як він покине пристрій користувача, і сервер їх не може розшифрувати, доки вони не будуть додані разом і усереднені з заданою кількістю інших резюме користувачів. Це дозволяє серверу навчати свою модель в середньому для користувачів, не виставляючи окремих резюме, які можуть бути використані для розкриття приватних даних особи.

Захищена агрегація не тільки заважає серверу отримувати доступ до резюме користувачів, але й робить це людина-в-середині напади набагато складніше.

Інший варіант диференційна конфіденційність, який включає різноманітні споріднені методи, які передбачають певну кількість шуму, що додається до даних. Основна передумова різної конфіденційності полягає в тому, що для того, щоб дані користувача залишалися приватними, запити до бази даних не повинні виявляти, чи була включена особа до даних, а також яка їх інформація.

Щоб запити не розкривали цю інформацію, для додавання шуму до даних можна використовувати кілька різних варіантів. Цей шум даних додається до того, як він покине пристрій користувача, не даючи серверу та зловмисникам отримати доступ до оновлень у їх первісному вигляді.

Модельне отруєння

Сполучене навчання відкриває можливість противникам «отруїти» алгоритмічну модель. По суті, це означає, що злісний актор може зіпсувати модель через власний пристрій або шляхом переймання пристроїв інших сторін, які беруть участь у навчанні алгоритмічної моделі.

Ці напади були детально досліджені Багдасаряном та ін. у своїх Як підтримувати федеральне навчання папір. За федеральною моделлю навчання зловмисник має потенціал, щоб взяти на себе одного або декількох учасників.

У певних сценаріях, вони можуть контролювати дані кожного учасника, якого вони перейняли, змінити те, як ці дані навчаються локально, змінити гіперпараметри, такі як швидкість навчання та зважування індивідуальної моделі (до того, як вони будуть подані на сервер для агрегації). Також можливо змінити підхід кожного учасника до місцевого тренінгу з одного раунду на інший.

Завдяки цим здібностям, зловмисники можуть вводити на задній план, які можуть змінювати алгоритми для досягнення власних цілей. За даними дослідження, модель отруєння була набагато ефективнішою, ніж інші напади отруєння даними.

У завданні слова передбачення за участю 80 000 учасників, дослідники могли досягти 50-відсоткової точності заднього ходу, компрометуючи лише вісім учасників. Щоб досягти такого ж ефекту, отруївши дані, дослідникам довелося б скомпрометувати 400 учасників.

Одне з найбільших проблем пов’язане з тим, що федеральне навчання та протокол захищеної агрегації мають на меті зберегти приватні дані користувачів. Якщо правильно впроваджено, сервер унеможливлює виявлення аномалій у підсумках окремих користувачів.

Як ми вже згадували вище, протокол захищеної агрегації дозволяє отримувати доступ до резюме користувачів лише після їх додавання разом з іншими даними користувачів. Оскільки резюме не можна оглядати окремо, це не дає змоги побачити аномалії, які можуть лежати в них, надаючи модельним атакам отруєння ідеальним способом прокрастися.

На цьому етапі ці напади та їх можливі захисні сили потребують більш ретельного вивчення.

Зберігання моделі приватною

Складні алгоритмічні моделі можуть коштувати мільйони, що робить їх мішенню для злодіїв. Вони можуть використовувати їх для заробітку так само, як роблять компанії, що стоять за алгоритмами, або навіть використовувати їх для незаконних цілей. Це не тільки врятувало б злодіїв від вкладення величезних коштів у побудову моделі, але й може знецінити оригінал.

Компаніям потрібно захищати свою інтелектуальну власність, і схоже, що модель направляється безпосередньо на пристрої користувачів може легко призвести до того, що ці моделі піддаються впливу всіх, хто хоче їх взяти. Однак є рішення, які компанії можуть використовувати для захисту своїх алгоритмічних моделей.

Одне з них – це використовувати таємний обмін багатопартійними обчисленнями. Це дозволяє організаціям приховати зважування моделі, розподіляючи їх фрагменти по пристроях. За цією системою жодна із таємницьких партій не може знати всю модель.

Це дозволяє організаціям пересувати свої алгоритмічні моделі навчання на пристрої, не турбуючись про викрадення їхньої інтелектуальної власності.

Обмеження федеративного навчання

На додаток до потенційних проблем безпеки федеральне навчання має ряд інших обмежень, які не дозволяють йому стати чарівною таблеткою для вирішення всіх наших проблем конфіденційності даних..

Одне враження полягає в тому, що в порівнянні з традиційними методами машинного навчання, федеральне навчання потребує значно більшої потужності та пам’яті локального пристрою для підготовки моделі. Однак багато нових пристроїв мають достатню потужність для цих функцій, і такий підхід також призводить до того, що значно менший обсяг даних передається центральним серверам, зменшуючи використання даних. Багато користувачів можуть вважати це вигідним, якщо їх пристрій достатньо потужний.

Інша технічна проблема стосується пропускної здатності. Федеративне навчання проводиться через wifi або 4G, тоді як традиційне машинне навчання відбувається в центрах обробки даних. Швидкість пропускної здатності Wi-Fi або 4G на величини нижче, ніж у робочих вузлів та серверів у цих центрах.

Пропускна здатність пристроїв не росте настільки швидко, як їх обчислювальна потужність протягом багатьох років, тому недостатня пропускна здатність може потенційно спричинити вузьке місце збільшує затримку і робить процес навчання повільнішим в порівнянні з традиційним підходом.

Якщо навчання алгоритму проводиться під час використання пристрою, це знижує його продуктивність. Google вирішив цю проблему лише навчальними пристроями, коли вони працюють на холостому ходу, включаються та підключаються до розетки. Поки це вирішує проблему, воно уповільнює цикл навчання, тому що навчання можна проводити лише в неробочий час.

Наступним завданням є те, що пристрої випадають під час навчального процесу – вони можуть бути використані власниками, вимкнені або зазнати певних збоїв. Дані про пристрої, що випадають, можуть не бути використані належним чином, що може призвести до менш точної алгоритмічної моделі.

Федеративне навчання – це новий шлях вперед до машинного навчання?

Федеративне навчання – це порівняно нова модель навчання, і вона демонструє потенціал у ряді різних застосувань. Тому що це ще на порівняно ранніх стадіях навчання, Процес потребує набагато більше досліджень, перш ніж можна визначити всі можливі його використання, а також потенційні ризики для безпеки та конфіденційності, з якими вона стикається.

До цього часу важко з впевненістю сказати, наскільки широко цей підхід буде впроваджений у майбутньому. Хороша новина полягає в тому, що ми вже бачили, що він ефективно розгортається в реальному світі за допомогою Gboard Google.

Однак через деякі раніше обговорювані обмеження федеральне навчання навряд чи замінить традиційні моделі навчання у всіх сценаріях. Майбутнє також буде залежати від того, наскільки віддані конфіденційності наші найбільші технологічні компанії насправді. На цьому етапі у нас є вагомі підстави бути скептичними.

Дивись також: Статистика порушень даних за 2019 рік

Kim Martin
Kim Martin Administrator
Sorry! The Author has not filled his profile.
follow me