Atacuri Adverse: De Ce Este Ușor De Păcălit O Rețea Neuronală? - Vedere Alternativă

Cuprins:

Atacuri Adverse: De Ce Este Ușor De Păcălit O Rețea Neuronală? - Vedere Alternativă
Atacuri Adverse: De Ce Este Ușor De Păcălit O Rețea Neuronală? - Vedere Alternativă

Video: Atacuri Adverse: De Ce Este Ușor De Păcălit O Rețea Neuronală? - Vedere Alternativă

Video: Atacuri Adverse: De Ce Este Ușor De Păcălit O Rețea Neuronală? - Vedere Alternativă
Video: От атеиста к Святости (18+) 2024, Mai
Anonim

În ultimii ani, pe măsură ce sistemele de învățare profundă devin mai răspândite, oamenii de știință au demonstrat modul în care tiparele potrivnice pot afecta orice, de la un simplu clasificator de imagini la sistemele de diagnosticare a cancerului - și chiar pot crea o situație care poate pune viața în pericol. În pofida tuturor pericolului lor, cu toate acestea, exemplele contradictorii sunt slab înțelese. Și oamenii de știință erau îngrijorați: această problemă poate fi rezolvată?

Ce este un atac advers? Acesta este un mod de a păcăli o rețea neuronală pentru a produce un rezultat incorect. Acestea sunt utilizate în principal în cercetarea științifică pentru a testa robustețea modelelor în raport cu date non-standard. Dar în viața reală, de exemplu, puteți schimba câțiva pixeli în imaginea unui panda, astfel încât rețeaua neuronală să fie sigură că există o pictogramă în imagine. Deși oamenii de știință adaugă doar „zgomot” imaginii.

Atacul advers: cum să păcălești o rețea neuronală?

Lucrările noi ale Institutului Tehnologic din Massachusetts indică o posibilă modalitate de a depăși această problemă. Rezolvând-o, am putea crea modele de învățare profundă mult mai fiabile, care ar fi mult mai dificil de manipulat în moduri rău intenționate. Dar să analizăm mai întâi elementele de bază ale modelelor contradictorii.

După cum știți, puterea învățării profunde vine din capacitatea sa superioară de a recunoaște tiparele (modele, modele, diagrame, tipare) în date. Hrănește rețeaua neurală zeci de mii de fotografii cu animale etichetate și află ce tipare sunt asociate cu un panda și care sunt asociate cu o maimuță. Ea poate apoi să folosească aceste tipare pentru a recunoaște imagini noi cu animale pe care nu le-a mai văzut niciodată.

Dar modelele de învățare profundă sunt, de asemenea, foarte fragile. Deoarece sistemul de recunoaștere a imaginilor se bazează doar pe tiparele de pixeli și nu pe o înțelegere mai conceptuală a ceea ce vede, este ușor să-l păcălești în a vedea ceva complet diferit - doar prin ruperea tiparelor într-un anumit mod. Exemplu clasic: adăugați ceva zgomot la o imagine panda și sistemul îl clasifică drept gibon cu o certitudine de aproape 100 la sută. Acest zgomot va fi atacul adversar.

Image
Image

Video promotional:

De câțiva ani, oamenii de știință au observat acest fenomen, în special în sistemele de viziune computerizată, fără să știe cu adevărat cum să scapi de astfel de vulnerabilități. De fapt, lucrările prezentate săptămâna trecută la o conferință majoră privind cercetarea inteligenței artificiale - ICLR - pun sub semnul întrebării inevitabilitatea atacurilor adverse. S-ar putea părea că, oricâte imagini panda alimentați pentru clasificatorul de imagini, va exista întotdeauna un fel de indignare cu care rupeți sistemul.

Dar lucrările noi ale MIT demonstrează că ne gândeam greșit la atacuri adverse. În loc să oferim modalități de a colecta mai multe date de calitate care alimentează sistemul, trebuie să ne regândim în mod fundamental demersul de formare a acestuia.

Lucrarea demonstrează acest lucru prin dezvăluirea unei proprietăți destul de interesante de exemple contradictorii care ne ajută să înțelegem de ce sunt eficiente. Care este trucul: zgomot aparent aleatoriu sau autocolante care confundă rețeaua neuronală, folosesc, de fapt, modele foarte subtile, pe care sistemul de vizualizare a învățat să le asocieze cu obiecte specifice. Cu alte cuvinte, mașina nu se prăbușește când vedem un butuc unde vedem un panda. De fapt, ea vede un aranjament regulat de pixeli, invizibil pentru oameni, care a apărut mult mai des în fotografiile cu gibonii decât în imaginile cu panda în timpul antrenamentului.

Oamenii de știință au demonstrat acest lucru prin experiment: au creat un set de date cu imagini ale câinilor, care au fost toate modificate astfel încât clasificatorul standard de imagini le-a identificat în mod greșit ca pisici. Apoi au etichetat aceste imagini cu „pisici” și le-au folosit pentru a antrena de la zero o nouă rețea neuronală. După antrenament, au arătat rețelei neuronale imagini reale ale pisicilor, iar ea le-a identificat corect pe toate ca fiind pisici.

Cercetătorii au emis ipoteza că există două tipuri de corelații în fiecare set de date: tiparele care se corelează efectiv cu sensul datelor, cum ar fi bătăușii în imagini de pisici sau colorarea blanii în imagini panda și modele care există în datele de antrenament, dar nu sunt propagate. la alte contexte. Aceste ultime corelații „înșelătoare”, să le numim așa, sunt utilizate în atacuri adverse. Un sistem de recunoaștere, instruit să recunoască tiparele „înșelătoare”, le găsește și crede că vede o maimuță.

Acest lucru ne spune că, dacă dorim să eliminăm riscul unui atac adversar, trebuie să schimbăm modul în care ne antrenăm modelele. În prezent, permitem rețelei neuronale să selecteze corelațiile pe care dorește să le utilizeze pentru a identifica obiectele din imagine. Drept urmare, nu avem niciun control asupra corelațiilor pe care le găsește, indiferent dacă sunt reale sau înșelătoare. Dacă, în schimb, ne-am antrena modelele pentru a-și aminti doar tiparele reale - care sunt legate de pixeli cu sens - în teorie, ar fi posibil să se producă sisteme de învățare profundă care nu ar putea fi confundate.

Când oamenii de știință au testat această idee, folosind doar corelații reale pentru a-și antrena modelul, ei au redus de fapt vulnerabilitatea acesteia: a fost manipulat doar 50% din timp, în timp ce un model instruit pe corelații reale și false a fost manipulat cu 95% din timp.

Pe scurt, vă puteți apăra împotriva atacurilor adverse. Dar avem nevoie de mai multe cercetări pentru a le elimina complet.

Ilya Khel

Recomandat: