Solidne wspólne filtrowanie
Systemy rekomendujące |
---|
Pojęcia |
Metody i wyzwania |
Implementacje |
Badania |
Solidne filtrowanie zespołowe lub odporne na ataki filtrowanie zespołowe odnosi się do algorytmów lub technik, które mają na celu uczynienie wspólnego filtrowania bardziej odpornym na próby manipulacji, przy jednoczesnym, miejmy nadzieję, utrzymaniu jakości rekomendacji. Ogólnie rzecz biorąc, te próby manipulacji zwykle odnoszą się do ataków szylingowych, zwanych również atakami wstrzykiwania profilu. Filtrowanie oparte na współpracy przewiduje ocenę elementu przez użytkownika poprzez znajdowanie podobnych użytkowników i przeglądanie ich ocen, a ponieważ możliwe jest tworzenie niemal nieograniczonej liczby kopii profili użytkowników w systemie online, filtrowanie oparte na współpracy staje się podatne na ataki, gdy do systemu wprowadzanych jest wiele kopii fałszywych profili. system. Istnieje kilka różnych podejść sugerowanych w celu poprawy niezawodności wspólnego filtrowania opartego zarówno na modelu, jak i na pamięci. Jednak solidne techniki filtrowania opartego na współpracy są nadal aktywną dziedziną badań, a ich główne zastosowania dopiero nadejdą.
Wstęp
Jednym z największych wyzwań dla wspólnego filtrowania są ataki szylingowe. Oznacza to, że szkodliwi użytkownicy lub konkurencja mogą celowo wprowadzić do systemu pewną liczbę fałszywych profili (zwykle 1–5%) w taki sposób, że mogą one wpłynąć na jakość rekomendacji, a nawet zniekształcić przewidywane oceny na korzyść swoich zalet. Niektóre z głównych strategii ataków szylingowych to ataki losowe, ataki średnie, ataki modowe i ataki skoncentrowane na segmentach.
Losowe ataki wprowadzają profile, które nadają losowe oceny podzbiorowi elementów; średnie ataki dają średnią ocenę każdego przedmiotu. Ataki modowe i ukierunkowane na segmenty są nowszymi i bardziej wyrafinowanymi modelami ataków. Profile ataków Bandwagon nadają losową ocenę podzbiorowi przedmiotów i maksymalną ocenę bardzo popularnym przedmiotom, aby zwiększyć szanse, że te fałszywe profile będą miały wielu sąsiadów. Atak skoncentrowany na segmentach jest podobny do modelu ataku modowego, ale daje maksymalną ocenę przedmiotom, które mają być wysoko oceniane przez docelową grupę użytkowników, zamiast często ocenianych.
Ogólnie wiadomo, że wspólne filtrowanie oparte na elementach jest bardziej niezawodne niż wspólne filtrowanie oparte na użytkownikach. Jednak wspólne filtrowanie oparte na elementach nadal nie jest całkowicie odporne na ataki modowe i segmentowe.
Solidne wspólne filtrowanie zazwyczaj działa w następujący sposób:
- Zbuduj model wykrywania użytkowników spamu
- Postępuj zgodnie z przepływem pracy zwykłego systemu filtrowania opartego na współpracy , ale korzystając tylko z danych ocen użytkowników niebędących spamerami.
Relacje użytkowników
Jest to metoda wykrywania sugerowana przez Gao i in. aby udoskonalić oparte na pamięci wspólne filtrowanie. Niektóre popularne metryki używane we wspólnym filtrowaniu do pomiaru podobieństwa użytkowników to współczynnik korelacji Pearsona, podobieństwo zainteresowań i odległość cosinusowa. (zobacz Definicje CF oparte na pamięci ) System rekomendujący może wykrywać ataki, wykorzystując fakt, że rozkłady tych metryk różnią się, gdy w systemie znajdują się użytkownicy spamu. Ponieważ ataki szylingowe polegają na wstrzyknięciu nie tylko jednego fałszywego profilu, ale dużej liczby podobnych fałszywych profili, użytkownicy spamu będą niezwykle podobni do siebie niż zwykli użytkownicy.
Cały system działa w ten sposób. Biorąc pod uwagę macierz ocen, uruchamia algorytm klastrowania oparty na gęstości na podstawie metryk relacji użytkownika w celu wykrycia użytkowników spamujących i przypisuje wagę 0 użytkownikom spamującym i wagę 1 zwykłym użytkownikom. Oznacza to, że podczas obliczania prognoz system uwzględni tylko oceny zwykłych użytkowników. Pozostała część algorytmu działa dokładnie tak samo, jak zwykłe wspólne filtrowanie oparte na elementach.
Zgodnie z wynikami eksperymentów na danych MovieLens, to solidne podejście CF zachowuje dokładność w porównaniu do normalnego CF opartego na przedmiotach, ale jest bardziej stabilne. Wynik przewidywania dla normalnych CF przesuwa się o 30-40% po wstrzyknięciu profili użytkowników spamu, ale to solidne podejście przesuwa się tylko o około 5-10%.