Pederal na pag-aaral: Ito ba ay mas mahusay para sa iyong privacy at seguridad?

Pederal na pag-aaral (1)

Maliban kung ikaw ay nakatuon sa pagsunod sa pinakabagong sa artipisyal na katalinuhan, maaaring hindi mo naririnig ang salitang ‘federated learning’ dati. Kahit na hindi ito maaaring maging kasing kilalang tulad ng iba pang mga uso sa tech tulad ng 3D pag-print o drone, ang mga implikasyon nito para sa privacy at pag-aaral ng makina ay maaaring humantong sa higit na higit na paggamit sa mga darating na taon.

Ang maikli at simpleng bersyon ay ang pederal na pag-aaral ay isang alternatibong modelo para sa pagpapabuti ng mga algorithm na pinamamahalaan ngayon ang maraming mga aspeto ng ating buhay, maging sila man ay Feed ng Balita ng Facebook o Google Maps. Sa ilalim ng mas tradisyunal na sistema, ang aming data ay ipinadala sa isang sentral na server kung saan nasuri ito, at ang nauugnay na impormasyon ay ginagamit upang baguhin ang algorithm.

Nag-aalok ang pederal na pag-aaral ng isang solusyon na nagpapaganda ng privacy ng gumagamit dahil ang karamihan ng personal na data ay nananatili sa aparato ng isang tao. Sinasanay ng mga algorithm ang kanilang sarili nang direkta sa mga aparato ng gumagamit at ibabalik lamang ang mga kaugnay na mga buod ng data, sa halip na ang data bilang isang kabuuan. Pinapayagan nito ang mga kumpanya na pagbutihin ang kanilang mga algorithm nang hindi kinakailangang mangolekta ng lahat ng data ng isang gumagamit, na nagbibigay ng mas solusyon na nakatuon sa privacy.

Ano ang pederal na pag-aaral?

Huwag magsinungaling, para sa karamihan ng mga tao, ang kalaliman ng pederal na pagkatuto ay maaaring maging mahirap unawain at mahirap maunawaan. Ang larangan ng AI ay malayo sa labas ng lupain ng kaalaman ng maraming tao at nagsasangkot ng higit na matematika at lohika kaysa sa karamihan sa atin ay komportable sa.

Sa kabila ng mga paghihirap na ito, ang pag-aaral ng pederal ay isang kawili-wili at mahalagang pag-unlad ng tech, kaya sulit na subukin mo ang iyong ulo. Upang gawing madali ang mga bagay, babasagin natin ang mga konsepto at ipaliwanag ang mga ito sa isang pinasimple na paraan upang maunawaan mo ang malaking larawan.

Pag-aaral ng machine at algorithm

Maliban kung ginugol mo ang iyong mga araw na nag-cosplay ng mga 1930, ang iyong buhay ay puno ng mga algorithm. Sa kontekstong ito, kapag tinutukoy namin ang mga algorithm, mahalagang kahulugan namin mga formula o hanay ng mga tagubilin na ginagamit upang malaman ang isang problema o makalkula ang isang nais na resulta.

Ginagamit sila ng Facebook, Instagram at Twitter upang maihatid ang mga isinapersonal na nilalaman na pinaka-malamang na interesado ka, pati na rin gawing mas maraming pera ang mga platform. Ang search engine ng Google ay gumagamit ng mga sopistikadong algorithm upang gawing mga pahina ang iyong mga termino sa paghahanap sa mga inaakala mong hinahanap. Ang iyong email ay nag-filter ng spam gamit ang mga algorithm, habang ang Waze ay gumagamit ng mga algorithm upang malaman ang pinaka-epektibong paraan upang makakuha mula sa punto A hanggang point B.

Mayroong hindi mabilang na iba pang mga algorithm na makakatulong sa amin kumpletuhin ang mga gawain, panatilihin kaming sakupin o maghilom sa ilalim ng talukap ng mga pang-araw-araw na proseso.

Ang mga kumpanya ay patuloy na sinusubukan upang mapagbuti ang mga algorithm na ito upang mabigyan ka ng pinaka-epektibo, tumpak at mahusay na mga resulta, hangga’t nakahanay sa mga layunin ng kumpanya – karaniwang kumikita ng pera.

Marami sa aming mga pinaka-ginagamit na algorithm ay dumating sa isang mahabang paraan mula noong kanilang paunang pag-deploy. Pag-isipan muli ang paghahanap sa pamamagitan ng Google sa mga huling siglo o unang bahagi ng 2000 – kailangan mong maging hindi kapani-paniwalang tiyak, at ang mga resulta ay kakila-kilabot kumpara sa kasalukuyang araw.

Kaya paano mapabuti ang mga algorithm na ito?

Ang isang pangunahing bahagi ng kung paano mas mahusay ang mga algorithm sa kanilang mga gawain ay nagsasangkot sa pag-aaral ng makina, na isang subfield ng artipisyal na katalinuhan. Ang mga algorithm ng pagkatuto ng makina ay nagsisimula sa pamamagitan ng pagkuha ng isang sample ng data, pag-aralan ito, kung gayon gamit ang kanilang natutunan upang maisagawa ang mga gawain nang mas epektibo. Nagagawa nilang pagbutihin nang hindi kinakailangang magkaroon ng mga pagbabagong ito na na-program ng isang puwersa sa labas, tulad ng isang developer ng tao.

Ang pag-aaral ng makina ay umuusbong sa nakaraang ilang dekada, pagpapabuti ng aming mga algorithm, na tumutulong sa amin na makakuha ng mas mahusay na mga resulta at paglipat sa mga bagong larangan. Dahil sa utility nito, mayroon din itong a malaking tagagawa ng pera para sa mga kumpanya tulad ng Facebook, Google at marami pang iba.

Nagsisimula ang lahat sa data – mas malaki ang data pool, at mas malaki ang bilang ng mga de-kalidad na puntos ng data, ang mas tumpak na mga algorithm sa pag-aaral ng machine ay maaaring. Ang mas epektibo sa isang algorithm ay, ang mas maraming pera na maaari nitong gawin, na kung saan ay mahalagang naging data sa isang kalakal.

Ang mga kondisyong ito ay nagdulot ng isang napakalaking pagpapalawak sa dami ng data na nakolekta sa mga tao. Para sa karamihan, ang data na ito ay nakolekta mula sa mga telepono ng telepono, computer at iba pang mga lugar, pagkatapos ay ipinadala sa isang server kung saan nasuri upang mapagbuti ang algorithm. Habang mayroon ito madalas na humantong sa mas mahusay na mga serbisyo at nadagdagan ang kaginhawaan, mayroon ding isang makabuluhang pagtulak mula sa mga nag-aalala tungkol sa kanilang privacy.

Mayroong isang bagay na nakakasama tungkol sa mga kumpanyang ito na alam ang iyong lokasyon sa lahat ng oras, alam ang iyong mga kaibigan, alam ang iyong buong kasaysayan ng paghahanap at marami pa. Sigurado, may mga paraan upang maiwasan ang mga ganitong uri ng koleksyon ng data, ngunit ang mga pamamaraan ay sa pangkalahatan ay hindi praktikal para sa karamihan sa mga tao na mag-abala.

Sa gitna ng isang serye ng mga iskandalo sa pagkapribado ng data, tulad ng Facebook ng Cambridge Analytica fiasco at napakalaking paglabag sa data ng Google, nagsimula nang mapansin ang mga kumpanya. Hindi nais na mai-usur, mukhang naghahanap sila ng mga paraan upang magpatuloy sa pagsulong ng kanilang mga layunin nang hindi pinalaki ang kanilang mga gumagamit o mambabatas. Marahil ang sandali ng tubig ay kapag inihayag ni Mark Zuckerberg na “Ang hinaharap ay pribado,” sa kumperensyang F8 sa taong ito.

Bagaman mas mahusay na tingnan ang kilusang ito na may pag-aalinlangan, nagkaroon ng ilang positibong pag-unlad na may kinalaman sa privacy ng gumagamit, na ang isa ay ang pag-aaral ng pederal.

Pederal na pag-aaral

Sa halip na kumuha ng data mula sa mga aparato ng gumagamit sa aming server, bakit hindi namin ipadala ang algorithm sa data?

Ito ang pangunahing konsepto sa likod ng pag-aaral ng pederal. Ang termino ay coined sa isang 2016 papel na inilathala ng mga empleyado ng Google, at ang kumpanya ay nanatili sa unahan ng larangan.

pederal na pag-aaral 1

Ang proseso ng pagsasanay sa pag-aaral ng pederal.

Ang pederal na pag-aaral ay nagpapabuti ng mga algorithm sa pamamagitan ng pagpapadala ng kasalukuyang bersyon ng isang algorithm sa mga karapat-dapat na aparato. Ang modelong ito ng algorithm pagkatapos ay natututo mula sa pribadong data sa mga telepono ng isang piling pangkat ng mga gumagamit. Kapag natapos na ito, ang isang buod ng bagong kaalaman ay maibalik sa server ng kumpanya – ang data mismo ay hindi umalis sa telepono.

Para sa seguridad, ang kaalamang ito ay karaniwang naka-encrypt sa paraan nito pabalik sa server. Upang mapigilan ang server na hindi malaman ang mga indibidwal na data batay sa buod na natanggap nito, binuo ng Google ang Secure Aggregation protocol.

Ang protocol na ito gumagamit ng kriptograpiya upang maiwasan ang server na ma-access ang mga indibidwal na buod ng impormasyon. Sa ilalim ng pamamaraan na ito, mai-access lamang ng server ang buod pagkatapos na ito ay idinagdag sa at na average sa mga resulta mula sa daan-daang o libu-libong iba pang mga gumagamit.

Bilang kahalili, Ang pagkapribado ng pagkakaiba-iba ay maaaring magamit upang magdagdag ng ingay ng ingay ng data sa buod ng isang indibidwal, nakakubli sa mga resulta. Ang random na data na ito ay idinagdag bago ang buod ay ipinadala sa server, na nagbibigay ng isang resulta ng server na tumpak na sapat para sa pagsasanay sa algorithm, nang walang aktwal na data ng buod na ipinahayag dito. Pinapanatili nito ang privacy ng indibidwal.

Ang mga pamamaraan tulad ng Secure Aggregation protocol at pagkakaiba sa privacy ay mahalaga para sa pagprotekta ng impormasyon ng gumagamit mula sa parehong samahan at mga hacker. Kung wala ang mga ito, ang pag-aaral ng pederal ay hindi matiyak ang privacy ng mga gumagamit.

Kapag ang mga buod ng impormasyon ay ligtas na ipinadala sa server, ginagamit ang mga ito upang i-update ang algorithm. Ang proseso ay paulit-ulit na libu-libong beses, at mga bersyon ng pagsubok ng algorithm ay ipinadala din sa iba’t ibang mga aparato ng gumagamit. Pinapayagan nito ang mga organisasyon na suriin ang mga bagong bersyon ng mga algorithm sa totoong data ng gumagamit. Dahil ang pagsusuri ay isinasagawa mula sa loob ng mga limitasyon ng mga aparato ng gumagamit, ang mga algorithm ay maaaring masubukan nang hindi kinakailangang i-pool ang data ng gumagamit sa isang gitnang server.

Kapag nakumpleto ang mga pagsubok, ang na-update na modelo ng algorithm ay ipinadala sa mga aparato ng gumagamit upang mapalitan ang luma. Ang pinahusay na algorithm ay ginamit sa mga normal na gawain. Kung ang lahat ay nawala ayon sa plano, ito ay magiging mas epektibo at tumpak sa pagkamit ng mga resulta nito.

Ang buong ikot pagkatapos ay paulit-ulit na paulit-ulit:

  • Ang bagong algorithm ay nag-aaral ng data sa mga napiling aparato ng gumagamit.
  • Ito ay ligtas na nagpapadala ng mga buod ng data ng gumagamit na ito sa server.
  • Ang data na ito ay pagkatapos ay na average ng mga resulta mula sa iba pang mga gumagamit.
  • Natuto ang algorithm mula sa impormasyong ito, gumagawa ng mga update at sinusuri ang mga ito.
  • Ang isang mas advanced na bersyon ng algorithm ay itinulak sa mga gumagamit.

Sa paglipas ng panahon, natututo ang algorithm mula sa data ng gumagamit at patuloy na nagpapabuti, nang hindi kinakailangang mag-imbak ng data sa mga server ng kumpanya. Kung nagpupumilit ka pa ring balot ang iyong ulo sa kung ano ang pederal na pag-aaral at kung paano ito gumagana, inilathala ng Google ang cartoon na nagpapaliwanag at makakatulong sa iyo na mailarawan ang pederal na diskarte sa pagkatuto sa isang simpleng paraan.

Iba pang mga pakinabang ng pag-aaral ng pederal

Ang modelo ng pag-aaral ng pederal ay nag-aalok ng mga gumagamit ng maraming iba pang mga benepisyo sa tuktok ng privacy. Sa halip na patuloy na pagbabahagi ng data sa server, ang proseso ng pag-aaral ay maaaring isagawa kapag ang isang aparato ay singilin, konektado sa wifi at hindi ginagamit, pagliit ng mga abala na kinakaharap ng mga gumagamit.

Nangangahulugan ito na hindi tinatanggal ng mga gumagamit ang kanilang mahalagang data o baterya kapag wala na sila. Dahil ang pag-aaral ng pederal ay naglilipat lamang ng isang buod ng nauugnay na data, sa halip na ang data mismo, ang proseso ay nagtatapos sa paglilipat ng mas kaunting data sa pangkalahatan kaysa sa ilalim ng tradisyonal na mga modelo ng pagkatuto.

Ang pederal na pag-aaral ay maaari ring maghatid ng parehong mga global at isinapersonal na mga modelo ng algorithm. Maaari itong magpahinga ng mga pananaw mula sa isang mas malawak na pangkat ng mga gumagamit at pagsamahin ang mga ito sa impormasyon mula sa indibidwal na gumagamit upang makapaghatid ng isang mas epektibong modelo na nababagay sa kanilang natatanging pangangailangan.

Mga aplikasyon ng pag-aaral ng pederal

Ang pederal na pag-aaral ay may malawak na hanay ng mga potensyal na kaso ng paggamit, lalo na sa mga sitwasyon kung saan Ang mga isyu sa privacy ay sumalungat sa pangangailangan upang mapabuti ang mga algorithm. Sa ngayon, ang pinakatanyag na mga proyekto ng pag-aaral ng pederal ay isinagawa sa mga smartphone, ngunit ang parehong mga pamamaraan ay maaaring mailapat sa mga computer at IoT aparato tulad ng mga awtonomikong sasakyan.

Ang ilan sa mga umiiral at potensyal na paggamit ay kinabibilangan ng:

Google Gboard

Ang unang malakihang paglawak ng pederal na pag-aaral sa totoong mundo ay bilang bahagi ng Application ng keyboard ng Google, Gboard. Ang kumpanya ay naglalayong gamitin ang pamamaraan upang mapagbuti ang mga mungkahi ng salita nang walang pag-kompromiso sa privacy ng gumagamit.

Sa ilalim ng lumang diskarte sa pagkatuto ng makina, ang pagbuo ng mas mahusay na mga hula sa keyboard ay napakalaking nagsasalakay – lahat ng nai-type namin, lahat ng aming mga pribadong mensahe at kakaibang paghahanap sa Google ay maipadala sa isang sentral na server para sa pagsusuri, at sino ang nakakaalam kung ano pa ang data maaaring ginamit para sa.

Sa kabutihang palad, pinili ng Google na gamitin ang kanilang pederal na diskarte sa pagkatuto sa halip. Dahil ang modelong algorithmic ay nakalagay sa mga aparato ng gumagamit, nagagawa mong malaman mula sa mga salitang nai-type ng mga gumagamit, buod ang pangunahing impormasyon at pagkatapos ay ipadala ito sa server. Ang mga buod na ito ay ginamit upang mapahusay ang mahuhulang tampok ng teksto ng Google, na kung saan ay susuriin at itulak sa mga gumagamit.

Ang bagong bersyon ng algorithm ay mag-aalok ng isang pinahusay na karanasan salamat sa kung ano ang natutunan mula sa proseso, at ang pag-ikot ay umuulit mismo. Pinapayagan nito ang mga gumagamit na patuloy na pagpapabuti ng mga mungkahi sa keyboard, nang hindi kinakailangang ikompromiso ang kanilang privacy.

Pangangalaga sa kalusugan

Ang pagkapribado ng data at seguridad ay hindi kapani-paniwalang kumplikado sa industriya ng pangangalagang pangkalusugan. Maraming mga organisasyon ang nagkita ng mga makabuluhang halaga ng parehong sensitibo at mahalagang data ng pasyente, na kung saan ay din na hinahangad ng mga hacker.

Walang sinuman ang nagnanais ng isang nakakahiya na diagnosis na tumagas sa publiko. Ang kayamanan ng data na nilalaman sa mga repositori na ito ay napakalaking kapaki-pakinabang para sa mga pandaraya tulad ng pagnanakaw ng pagkakakilanlan at pandaraya sa seguro. Dahil sa malaking dami ng data at ang malaking panganib na nahaharap sa industriya ng kalusugan, ang karamihan sa mga bansa ay nagpatupad ng mahigpit na batas tungkol sa kung paano dapat pamahalaan ang data ng kalusugan, tulad ng regulasyon ng HIPAA ng US.

Ang mga batas na ito ay medyo mahigpit at may mga makabuluhang parusa kung nilabag sila ng isang organisasyon. Sa pangkalahatan ito ay isang mabuting bagay para sa mga pasyente na nag-aalala tungkol sa kanilang data na naiinis. Gayunpaman, ang mga uri ng batas na ito ay nagpapahirap din na gumamit ng ilang mga anyo ng data sa mga pag-aaral na maaaring makatulong sa mga bagong pambihirang tagumpay.

Dahil sa kumplikadong ligal na sitwasyong ito, ang mga organisasyon tulad ng Owkin at Intel ay nagsasaliksik kung paano maaaring mai-lever ang pag-aaral ng federated upang maprotektahan ang privacy ng mga pasyente habang inilalagay din ang data.

Si Owkin ay nagtatrabaho sa isang platform na gumagamit ng pederal na pag-aaral upang maprotektahan ang data ng pasyente sa mga eksperimento na tumutukoy sa toxicity ng droga, mahulaan ang ebolusyon ng sakit at tinantya din ang mga rate ng kaligtasan para sa mga bihirang uri ng cancer.

Noong 2018, ang Intel ay nakipagtulungan sa University of Pennsylvania’s Center for Biomedical Image Computing and Analytics upang ipakita kung paano mailalapat ang pederal na pagkatuto sa imaging medikal bilang isang patunay ng konsepto.

Inilahad ng pakikipagtulungan na sa ilalim ng isang pederal na diskarte sa pagkatuto, ang kanilang partikular na malalim na modelo ng pagkatuto ay maaaring sanay na 99 porsyento bilang tumpak ng parehong modelo na sinanay sa pamamagitan ng tradisyonal na pamamaraan.

Mga awtomatikong sasakyan

Ang pederal na pag-aaral ay maaaring maging kapaki-pakinabang para sa mga sasakyan sa pagmamaneho sa sarili sa dalawang pangunahing paraan. Ang una ay maaaring maprotektahan ang privacy ng data ng gumagamit – maraming mga tao ang hindi nagustuhan ang ideya ng kanilang mga tala sa paglalakbay at iba pang impormasyon sa pagmamaneho na nai-upload at nasuri sa isang gitnang server. Ang pederal na pag-aaral ay maaaring mapahusay ang privacy ng gumagamit sa pamamagitan lamang ng pag-update ng mga algorithm na may mga buod ng data na ito, sa halip ng lahat ng impormasyon ng gumagamit.

Ang iba pang pangunahing kadahilanan para sa pag-ampon ng isang pederal na diskarte sa pagkatuto ay maaari itong mabawasan ang latency. Sa isang posibleng senaryo sa hinaharap kung saan mayroong isang malaking bilang ng mga nagmamaneho sa sarili sa mga kalsada, kakailanganin nilang mabilis na tumugon sa bawat isa sa mga insidente sa kaligtasan.

Ang tradisyonal na cloud-learning ay nagsasangkot ng malalaking paglilipat ng data at isang mas mabagal na tulin ng pagkatuto, kaya may potensyal na pinahihintulutan ng pederal na pag-aaral ang autonomous na mga sasakyan na kumilos nang mas mabilis at tumpak, na mabawasan ang mga aksidente at mapalakas ang kaligtasan.

Pagsunod sa regulasyon

Ang pederal na pag-aaral ay maaari ring makatulong sa mga organisasyon na mapabuti ang kanilang mga modelo ng algorithm nang hindi inilalantad ang data ng pasyente o nagtatapos sa maling panig ng mga regulasyon. Ang mga batas, tulad ng General Data Protection Regulation (GDPR) at US ‘Health Insurance Portability Act of 1996, ay may mahigpit na regulasyon sa data ng mga indibidwal at kung paano ito magagamit.

Ang mga batas na ito ay karaniwang nasa lugar upang maprotektahan ang privacy ng mga indibidwal, na nangangahulugang ang pederal na pag-aaral ay maaaring magbukas ng mga bagong pagkakataon sa pamamagitan ng pagiging matuto mula sa data habang pinapanatili itong ligtas at sa loob ng mga alituntunin sa regulasyon.

Ang seguridad at privacy ng pag-aaral ng pederal

Binubuksan ng pederal na pagkatuto ang isang mundo ng mga bagong pagkakataon para sa mga modelo ng pag-aaral ng machine ng pagsasanay nang hindi nakompromiso ang privacy ng data. Gayunpaman, kinakailangang maipatupad nang maingat upang mapagaan ang mga isyu sa seguridad at ang posibilidad ng paglalantad ng data ng gumagamit.

Ang ilan sa mga pangunahing problema, pati na rin ang kanilang mga potensyal na solusyon, ay kinabibilangan ng:

Interception ng mga buod ng data ng gumagamit

Ang pagbibigay ng sapat na privacy at seguridad sa pangkalahatan ay nagsasangkot ng isang kumbinasyon ng iba’t ibang mga teknolohiya pati na rin ang patakaran. Habang ang pag-aaral ng federated ay nagbibigay sa amin ng mga bagong paraan upang maprotektahan ang data, kailangan pa rin itong ipatupad kasama ang mga pantulong na mekanismo.

Ang isang halimbawa ng isang potensyal na mahina na punto ay na kapag ang mga buod ng data ng mga gumagamit ay ipinadala mula sa aparato hanggang sa gitnang server, maaari silang maharang ng mga hacker na maaaring magamit ang mga ito upang malaman ang orihinal na data.

Sa kabutihang palad, ang problemang ito ay may medyo tuwid na solusyon na ipinatupad na namin sa maraming mga lugar ng seguridad ng impormasyon – kailangan lang nating i-encrypt ang data gamit ang naaangkop na algorithm habang naglalakbay ito sa pagitan ng dalawang puntos.

Nalalaman ang orihinal na data mula sa mga buod ng gumagamit

Sa ilang mga sitwasyon, ang mga buod ng data ng gumagamit ay maaaring magamit upang matukoy ang orihinal na impormasyon. Kung ang isang malisyosong partido ay nagpapadala ng mga query sa modelo sa pamamagitan ng API, maaaring posible na muling itayo ang data, bagaman hindi ito isang natatanging problema sa pag-aaral ng pederal.

Kung ang mga umaatake o ang mga samahan na nagmamay-ari ng mga server ay maaaring malaman ang orihinal na data ng gumagamit sa paraang ito, ito ay ganap na talunin ang layunin ng pagpapatupad ng pederal na pagkatuto. Mayroong dalawang pangunahing mekanismo na maaaring ma-deploy kasama ang pederal na pag-aaral upang maiwasan ito mula sa nangyari: Proteksyon ng Secure Aggregation ng Google at privacy privacy.

Ang Secure ang proteksyon ng Aggregation Gumagamit ng computation ng multi-party upang makalkula ang average ng isang pangkat ng mga buod ng data ng gumagamit, nang hindi inihayag ang mga buod ng data ng sinumang indibidwal sa server o anumang iba pang partido.

Sa ilalim ng system na ito, ang bawat isa sa mga buod ng gumagamit ay naka-encrypt bago nila iwanan ang aparato ng gumagamit, at hindi sila mai-decrypted ng server hanggang sa sila ay dinagdagan nang sama-sama at naitala sa isang itinakdang bilang ng iba pang mga buod ng gumagamit. Pinapayagan nito ang server na sanayin ang modelo nito sa average ng gumagamit, nang hindi inilalantad ang mga indibidwal na buod na maaaring magamit upang alisan ng takip ang pribadong data ng isang indibidwal.

Hindi lamang pinipigilan ng Secure Aggregation ang server na ma-access ang mga buod ng gumagamit, ngunit ginagawa rin nito lalaki sa gitna mas mahirap ang pag-atake.

Ang iba pang pagpipilian ay pagkapribado ng pagkakaiba-iba, na may kasamang iba’t ibang mga kaugnay na pamamaraan na nagsasangkot ng isang tiyak na dami ng ingay na idinagdag sa data. Ang pangunahing saligan ng pagkapribado ng pagkakaiba ay ang para sa data ng isang gumagamit upang manatiling pribado, ang mga query sa database ay hindi dapat ipakita kung ang isang indibidwal ay kasama sa data, o kung ano ang kanilang impormasyon ay.

Upang maiwasan ang mga query na ihayag ang impormasyong ito, maraming iba’t ibang mga pagpipilian ang maaaring magamit upang magdagdag ng ingay sa data. Ang ingay ng data na ito ay idinagdag bago umalis sa isang aparato ng isang gumagamit, na pinipigilan ang parehong server at attackers na mai-access ang mga update sa kanilang orihinal na form.

Pagkalason sa modelo

Binubuksan ng pederal na pag-aaral ang pagkakataon para sa mga kalaban na “lason” ang modelo ng algorithm. Mahalaga, nangangahulugan ito na ang isang malisyosong artista ay maaaring masira ang modelo sa pamamagitan ng kanilang sariling aparato, o sa pamamagitan ng pagkuha ng mga aparato ng iba pang mga partido na kasangkot sa pagsasanay sa algorithm na modelo.

Ang mga pag-atake na ito ay ginalugad nang detalyado ng Bagdasaryan et al. sa kanilang Paano mag-aaral sa pag-aaral ng backdoor papel. Sa ilalim ng isang pederal na modelo ng pagkatuto, ang mang-atake ay may potensyal na kumuha ng isa o higit pang mga kalahok.

Sa ilang mga sitwasyon, posible para sa kanila na kontrolin ang data ng bawat kalahok na kanilang kinuha, upang baguhin kung paano ang nasabing data ay bihasa nang lokal, upang baguhin ang mga hyperparameters tulad ng rate ng pag-aaral at ang bigat ng indibidwal na modelo (bago ito isinumite sa server para sa pagsasama). Posible ring baguhin ang diskarte ng bawat kalahok sa lokal na pagsasanay mula sa isang pag-ikot hanggang sa isa pa.

Sa pamamagitan ng mga kakayahang ito, ang mga umaatake ay maaaring mag-iniksyon sa likuran na maaaring baguhin ang mga algorithm patungo sa kanilang sariling mga layunin. Ayon sa mga numero mula sa pag-aaral, ang pagkalason sa modelo ay mas epektibo kaysa sa iba pang mga pag-atake ng pagkalason sa data.

Sa isang gawain ng hula-salita na kinasasangkutan ng 80,000 mga kalahok, ang mga mananaliksik ay maaaring makamit ang 50 porsyento na katumpakan ng backdoor sa pamamagitan ng pag-kompromiso sa walo lamang sa mga kalahok. Upang maisakatuparan ang parehong epekto sa pamamagitan ng pagkalason sa datos, ang mga mananaliksik ay kailangang kumompromiso sa 400 mga kalahok.

Ang isa sa mga pinakamalaking isyu ay nagmula sa katotohanan na ang pag-aaral ng pederal at ang Secure Aggregation protocol ay naglalayong panatilihing pribado ang data ng gumagamit. Kapag naipatupad nang tama, ginagawang imposible para sa server na makita ang mga anomalya sa mga buod ng indibidwal na gumagamit.

Tulad ng nabanggit namin sa itaas, pinapayagan lamang ng Secure Aggregation protocol ang pag-access sa mga buod ng gumagamit sa sandaling sila ay idinagdag kasama ang iba pang data ng gumagamit. Sapagkat ang mga buod ay hindi mai-scan nang paisa-isa, ginagawang imposible na makita ang mga anomalya na maaaring magsinungaling sa loob ng mga ito, na nagbibigay ng pag-atake ng modelong pagkalason sa perpektong paraan upang mag-sneak sa.

Sa yugtong ito, ang mga pag-atake na ito at ang kanilang posibleng mga panlaban ay kailangang masuri nang lubusan.

Pagpapanatiling pribado ang modelo

Ang mga sopistikadong modelo ng algorithm ay maaaring nagkakahalaga ng milyon-milyon, na ginagawang target nila para sa mga magnanakaw. Maaari nilang gamitin ang mga ito upang kumita ng pera sa parehong paraan na ginagawa ng mga kumpanya sa likod ng mga algorithm, o kahit na ang paggamit nito para sa hindi ipinagbabawal na mga layunin. Hindi lamang nito mai-save ang mga magnanakaw mula sa pamumuhunan ng napakalaking halaga ng pondo sa pagbuo ng modelo, ngunit maaari din nitong ibawas ang orihinal.

Kailangang protektahan ng mga kumpanya ang kanilang intelektuwal na pag-aari, at tila ang pagpapadala ng modelo nang direkta sa mga aparato ng mga gumagamit madaling magresulta sa mga modelong ito na nailantad sa sinumang nais kunin ang mga ito. Gayunpaman, may mga solusyon na maaaring magamit ng mga kumpanya upang maprotektahan ang kanilang mga modelo ng algorithm.

Ang isa sa mga ito ay pagkilos ng lihim na pagbabahagi ng pag-computation ng multi-party. Pinapayagan nitong itago ang mga organisasyon sa pagtimbang ng modelo sa pamamagitan ng pamamahagi ng mga fragment nito sa mga aparato. Sa ilalim ng sistemang ito, wala sa mga partido na may hawak na lihim na maaaring malaman ang buong modelo.

Pinapayagan nito ang mga organisasyon na itulak ang kanilang mga modelo ng pagsasanay sa algorithm sa mga aparato nang hindi kailangang mag-alala tungkol sa pagnanakaw ng kanilang intelektuwal na pag-aari.

Mga Limitasyon ng pag-aaral ng pederal

Bilang karagdagan sa mga potensyal na isyu sa seguridad, ang federated na pag-aaral ay may maraming iba pang mga limitasyon na pumipigil sa ito mula sa pagiging isang magic pill upang malutas ang lahat ng aming mga isyu sa pagkapribado ng data.

Ang isang pagsasaalang-alang ay kung ihahambing sa tradisyonal na pamamaraan ng pag-aaral ng makina, ang pederal na pag-aaral ay nangangailangan ng makabuluhang higit pang lokal na kapangyarihan at memorya ng aparato upang sanayin ang modelo. Gayunpaman, maraming mga bagong aparato ang may sapat na kapangyarihan para sa mga pagpapaandar na ito, at ang pamamaraang ito ay nagreresulta din sa isang mas maliit na halaga ng data na inilipat sa mga sentral na server, binabawasan ang paggamit ng data. Maraming mga gumagamit ang maaaring makahanap ng kapaki-pakinabang na trade-off na ito, hangga’t ang kanilang aparato ay sapat na malakas.

Ang isa pang isyu sa teknikal ay nagsasangkot ng bandwidth. Ang pederal na pagkatuto ay isinasagawa sa wifi o 4G, habang ang tradisyonal na pag-aaral ng makina ay nangyayari sa mga sentro ng data. Ang mga rate ng bandwidth ng wifi o 4G ay mas mataas kaysa sa mga ginamit sa pagitan ng mga gumaganang node at server sa mga sentro.

Ang bandwidth sa mga aparato ay hindi lumago nang napakabilis ng kanilang kapangyarihan sa pagkalkula sa mga taon, kaya ang hindi sapat na bandwidth ay maaaring maging sanhi ng isang bottleneck na pinatataas ang latency at ginagawang mas mabagal ang proseso ng pag-aaral kung ihahambing sa tradisyunal na diskarte.

Kung isinasagawa ang pagsasanay sa algorithm habang ginagamit ang isang aparato, binabawasan nito ang pagganap ng isang aparato. Nakakuha ng Google ang problemang ito sa pamamagitan lamang ng mga aparato sa pagsasanay kapag sila ay nag-idle, nakabukas at naka-plug sa isang outlet. Habang nalulutas nito ang problema, ito nagpapabagal sa pag-aaral ng pag-aaral, dahil ang pagsasanay ay magagawa lamang sa mga oras ng off-peak.

Ang isang karagdagang hamon ay ang mga aparato ay bumababa sa panahon ng proseso ng pagsasanay – maaari silang magamit ng kanilang mga may-ari, naka-off, o sumailalim sa iba pang pagkagambala. Ang data ng mga aparato na nag-drop out ay maaaring hindi magamit nang maayos, na maaaring humantong sa isang mas tumpak na modelo ng algorithm.

Ang pederal na pag-aaral ba ang bagong paraan para sa pag-aaral ng makina?

Ang pederal na pag-aaral ay isang medyo bagong modelo ng pagsasanay at nagpapakita ito ng mga potensyal sa isang iba’t ibang mga application. Dahil nasa pa rin ito ng maagang yugto ng pag-aaral, ang proseso ay nangangailangan ng mas maraming pananaliksik bago matukoy ang lahat ng mga posibleng paggamit nito, pati na rin ang mga potensyal na panganib sa seguridad at privacy na kinakaharap nito.

Hanggang sa ngayon, mahirap sabihin nang may katiyakan kung gaano kalawak ang pamamaraang ipatutupad sa hinaharap. Ang mabuting balita ay nakita na natin na epektibo itong na-deploy sa totoong mundo gamit ang Google’s Gboard.

Gayunpaman, dahil sa ilan sa mga naunang tinalakay na mga limitasyon, imposible para sa pederal na pag-aaral na palitan ang mga tradisyunal na modelo ng pagkatuto sa lahat ng mga senaryo. Ang hinaharap ay umaasa din sa kung paano talaga nakatuon sa privacy ang aming mga pangunahing kumpanya sa tech. Sa yugtong ito, mayroon tayong magandang dahilan upang maging walang pag-aalinlangan.

Tingnan din: Mga istatistika ng paglabag sa data ng 2019

Kim Martin
Kim Martin Administrator
Sorry! The Author has not filled his profile.
follow me