Zatrucie bayesowskie
Zatrucie Bayesowskie to technika stosowana przez spamerów e-mailowych w celu obniżenia skuteczności filtrów spamu , które opierają się na filtrowaniu spamu Bayesowskim . Filtrowanie bayesowskie opiera się na prawdopodobieństwie bayesowskim w celu określenia, czy poczta przychodząca jest spamem, czy nie. Spamer ma nadzieję, że dodanie losowych (lub nawet starannie dobranych) słów, które prawdopodobnie nie pojawią się w wiadomości spamowej, sprawi, że filtr antyspamowy uzna wiadomość za wiarygodną — jest to statystyczny błąd typu II .
Spamerzy mają również nadzieję, że sprawią, że filtr antyspamowy będzie miał wyższy współczynnik fałszywych trafień, zamieniając wcześniej niewinne słowa w słowa spamerskie w bazie danych Bayesa ( błędy statystyczne typu I ), ponieważ użytkownik, który wytrenuje swój filtr spamu na zatrutej wiadomości, będzie wskazywał filtr, że słowa dodane przez spamera są dobrym wskaźnikiem spamu.
Wyniki empiryczne
Graham-Cumming
Na konferencji Spam, która odbyła się w MIT w 2004 roku, John Graham-Cumming przedstawił dwa możliwe ataki na silnik Bayesian POPFile . Jeden był nieskuteczny, a drugi działał, ale był niepraktyczny. W ten sposób zidentyfikowali dwa rodzaje ataków trujących: pasywny (w którym słowa są dodawane bez żadnej informacji zwrotnej dla spamera) i aktywny (w którym spamer otrzymuje informację zwrotną po otrzymaniu spamu).
Pasywna metoda dodawania losowych słów do małego spamu była nieskuteczna jako metoda ataku: dostarczono tylko 0,04% zmodyfikowanych wiadomości spamowych. Atak aktywny polegał na dodaniu losowych słów do małego spamu i wykorzystaniu błędu internetowego w celu ustalenia, czy spam został odebrany. Jeśli tak, inny system bayesowski został wyszkolony przy użyciu tych samych trujących słów. Po wysłaniu 10 000 spamów do jednego użytkownika, ustalił mały zestaw słów, których można użyć do przesłania spamu.
Prosty środek zaradczy polegający na wyłączeniu zdalnych obrazów ( błędów internetowych ) w wiadomościach e-mail eliminuje ten problem.
Wittel i Wu
Na konferencji poświęconej poczcie e-mail i antyspamowi w 2004 r. Wittel i Wu przedstawili artykuł, w którym wykazali, że pasywne dodawanie losowych słów do spamu było nieskuteczne w przypadku CRM114 , ale skuteczne w przypadku SpamBayes z dodaniem 100 słów na spam.
Wykazali również, że inteligentniejszy atak pasywny, polegający na dodaniu typowych angielskich słów, był nadal nieskuteczny przeciwko CRM114, ale był jeszcze bardziej skuteczny przeciwko SpamBayes. Musieli dodać tylko 50 słów do spamu, aby przejść przez SpamBayes.
Jednak testy Wittel i Wu zostały skrytykowane ze względu na minimalne informacje nagłówkowe, które były obecne w e-mailach, których używali; większość Bayesowskich filtrów antyspamowych szeroko wykorzystuje informacje nagłówka i inne metadane wiadomości do określania prawdopodobieństwa, że wiadomość jest spamem. Omówienie wyników SpamBayes i kilka dowodów przeciwnych można znaleźć w archiwum listy mailingowej SpamBayes.
Wszystkie te ataki to ataki typu II: ataki mające na celu dostarczenie spamu. Atak typu I ma na celu wywołanie fałszywych alarmów poprzez przekształcenie wcześniej niewinnych słów w spamerskie słowa w bazie danych Bayesa.
Sterna, Masona i Pasterza
Również w 2004 roku Stern, Mason i Shepherd napisali raport techniczny na Uniwersytecie Dalhousie , w którym szczegółowo opisali pasywny atak typu II. Do wiadomości spamowych dodawali popularne angielskie słowa używane do trenowania i testowania filtra antyspamowego.
W dwóch testach wykazali, że te popularne słowa zmniejszają precyzję filtra antyspamowego (odsetek wiadomości sklasyfikowanych jako spam, które faktycznie są spamem) z 84% do 67% iz 94% do 84%. Badanie ich danych pokazuje, że zatruty filtr był nastawiony na przekonanie, że wiadomości były bardziej spamem niż „ham” (dobrym e-mailem), zwiększając w ten sposób odsetek fałszywych trafień.
Zaproponowali dwa środki zaradcze: ignorowanie popularnych słów podczas przeprowadzania klasyfikacji oraz wygładzanie prawdopodobieństw w oparciu o wiarygodność słowa. Słowo ma wiarygodne prawdopodobieństwo, jeśli jest mało prawdopodobne, aby atakujący był w stanie odgadnąć, czy jest to część słownictwa danej osoby. Tak więc powszechne słowa są niewiarygodne, a ich prawdopodobieństwo zostałoby wygładzone do 0,5 (czyniąc je neutralnymi).
Lowd i Meek
W 2005 roku na konferencji poświęconej poczcie elektronicznej i ochronie przed spamem Lowd i Meek przedstawili artykuł, w którym wykazali, że ataki pasywne polegające na dodawaniu losowych lub powszechnych słów do spamu są nieskuteczne wobec naiwnego filtra Bayesa. (W rzeczywistości pokazali, jak wykazał John Graham-Cumming w 2004 r., że dodanie losowych słów poprawia dokładność filtrowania spamu).
Wykazali, że dodanie słów hammy – słów, które częściej pojawiają się w wiadomościach ham (niebędących spamem) niż w spamie – było skuteczne przeciwko naiwnemu filtrowi bayesowskiemu i umożliwiało przedostanie się spamu. Następnie szczegółowo opisali dwa aktywne ataki (ataki, które wymagają informacji zwrotnej od spamera), które były bardzo skuteczne przeciwko filtrom antyspamowym. Oczywiście zapobieganie otrzymywaniu jakichkolwiek informacji zwrotnych od spamerów (takich jak raporty o niedostarczeniu, błędy na poziomie SMTP lub błędy w sieci) w prosty sposób pokonuje aktywny atak.
Wykazali również, że ponowne uczenie filtra było skuteczne w zapobieganiu wszystkim typom ataków, nawet jeśli dane przekwalifikowania zostały zatrute.
Z opublikowanych badań wynika, że dodawanie losowych słów do wiadomości spamowych jest nieskuteczną formą ataku, natomiast ataki aktywne są bardzo skuteczne, a dodawanie starannie dobranych słów może w niektórych przypadkach zadziałać. Aby bronić się przed tymi atakami, spamerzy nie otrzymują żadnych informacji zwrotnych, a filtry statystyczne są regularnie udoskonalane.
Badanie pokazuje również, że warto kontynuować badanie ataków na filtry statystyczne. Zademonstrowano działające ataki i konieczne są środki zaradcze, aby zapewnić dokładność filtrów statystycznych.
Zobacz też
Linki zewnętrzne
- Czy istnieje zatrucie bayesowskie? (wymagamy rejestracji)