Wykrywanie zmian i powiadamianie
Wykrywanie zmian i powiadamianie o nich ( CDN ) to automatyczne wykrywanie zmian wprowadzanych na stronach WWW i powiadamianie zainteresowanych użytkowników pocztą elektroniczną lub w inny sposób.
Podczas gdy wyszukiwarki są zaprojektowane do znajdowania stron internetowych, systemy CDN są przeznaczone do monitorowania zmian na stronach internetowych. Przed wykryciem zmian i powiadomieniem o nich użytkownicy musieli ręcznie sprawdzać zmiany na stronach internetowych, odwiedzając je ponownie lub okresowo przeszukując je ponownie. Wydajne i skuteczne wykrywanie zmian i powiadamianie o nich jest utrudnione przez fakt, że większość serwerów nie śledzi dokładnie zmian treści za pomocą nagłówków Last-Modified lub ETag serwera WWW. Obszerną analizę dotyczącą systemów CDN można znaleźć tutaj .
Historia
W 1996 r. firma NetMind opracowała pierwsze narzędzie do wykrywania i powiadamiania o zmianach, znane jako Mind-it, które działało przez sześć lat. To zrodziło nowe usługi, takie jak ChangeDetection (1999), ChangeDetect (2002), Google Alerts (2003) i Versionista (2007), które były używane przez kampanię prezydencką Johna McCaina 2008 w wyścigu o wybory prezydenckie w Stanach Zjednoczonych w 2008 roku . W przeszłości sondowanie zmian było przeprowadzane albo przez serwer, który wysyłał powiadomienia e-mail, albo przez program komputerowy, który dźwiękowo ostrzegał użytkownika o zmianie. Powiadamianie o zmianach jest również możliwe bezpośrednio na urządzeniach mobilnych oraz za pośrednictwem powiadomień push , webhooków i wywołań zwrotnych HTTP w celu integracji aplikacji.
Opcje monitorowania różnią się w zależności od usługi lub produktu i obejmują zarówno monitorowanie pojedynczej strony internetowej, jak i całych witryn internetowych. To, co faktycznie jest monitorowane, różni się również w zależności od usługi lub produktu, z możliwością monitorowania tekstu, linków, dokumentów, skryptów, obrazów lub zrzutów ekranu.
Z godnym uwagi wyjątkiem zgłoszeń patentowych Google związanych z Alertami Google , aktywność związana z własnością intelektualną dostawców wykrywania zmian i powiadamiania o nich jest minimalna. Żadnemu sprzedawcy nie udało się skutecznie wykorzystać wyłącznych praw do zmiany technologii wykrywania i powiadamiania za pomocą patentów lub innych środków prawnych. [ potrzebne źródło ] Doprowadziło to do znacznego nałożenia się funkcji produktów i usług.
Podejścia architektoniczne
Usługi wykrywania i powiadamiania o zmianach można podzielić na kategorie według architektury oprogramowania, z której korzystają. Można wyróżnić trzy główne podejścia:
Oparte na serwerze
Serwer sonduje zawartość, śledzi zmiany i loguje dane, wysyłając alerty w postaci powiadomień e-mail, webhooków , RSS . Zazwyczaj powiązana strona internetowa z konfiguracją jest zarządzana przez użytkownika. Niektóre usługi mają również aplikację na urządzenie mobilne, która łączy się z serwerem w chmurze i wysyła alerty do urządzenia mobilnego.
Oparte na własnym hostingu
Stosunkowo nowszym podejściem, które leży pomiędzy serwerem a klientem, jest korzystanie z samodzielnego hostingu , w którym oprogramowanie, które normalnie działałoby na oddzielnym serwerze, działa lokalnie na twoim własnym sprzęcie, ogólnie oznacza, że oprogramowanie zapewnia miniaturowy serwer WWW z interfejs przeglądarki zamiast klasycznego graficznego interfejsu użytkownika udostępnianego przez aplikację.
Oparte na kliencie
Lokalna aplikacja kliencka z graficznym interfejsem użytkownika odpytuje zawartość, śledzi zmiany i rejestruje dane. Aplikacje klienckie mogą być rozszerzeniami przeglądarki, aplikacjami mobilnymi lub programami.
Rozważania
Niektóre strony internetowe zmieniają się regularnie ze względu na umieszczanie reklam lub kanałów na prezentowanej stronie. Może to wywołać fałszywe alarmy w wykrywaniu zmian, ponieważ użytkownicy często są zainteresowani tylko zmianami w głównej treści. Istnieją pewne podejścia do złagodzenia tego problemu.
- Utwórz metrykę różnicy między dwiema wersjami strony (obliczaną na przykład ze zmiany całkowitego rozmiaru, zmian w pliku HTML lub zmian w drzewie DOM ) i ignoruj zmiany poniżej pewnego progu. Próg może być ustawiony przez użytkownika lub oszacowany automatycznie, porównując niektóre wczesne wersje strony.
- Ekstrakcja treści. W przypadku popularnych witryn lub witryn z popularnym oprogramowaniem zawartość można aktywnie oddzielić od plew, wybierając poddrzewo DOM, na przykład za pomocą XPath . Inną typową metodą jest użycie wyrażeń regularnych do wyodrębnienia tylko interesującego użytkownika tekstu.
- Chakravarthy, S.; Hara, SCH (2006). „Automatyzacja wykrywania zmian i powiadamiania o stronach internetowych (dokument na zaproszenie)” . 17. Międzynarodowa Konferencja na temat Aplikacji Baz Danych i Systemów Ekspertowych (DEXA'06) . P. 465. doi : 10.1109/DEXA.2006.34 . ISBN 0-7695-2641-1 . S2CID 6395251 .
- Szobhna, Bansal; Chadhaury, Manoj (czerwiec 2013). „Ankieta dotycząca systemu wykrywania zmian stron internetowych przy użyciu różnych podejść” (PDF) . International Journal of Computer Science and Mobile Computing . IJCSMC. 2 (6): 294–299. ISSN 2320-088X . Źródło 8 września 2016 r .
- changeetection.io Wykrywanie i powiadamianie o zmianach na własnej stronie internetowej