Centrum OutWit

Centrum OutWit
Deweloperzy Technologie OutWit
System operacyjny Microsoft Windows , macOS , Linux
Typ Skrobanie sieci , menedżer pobierania
Licencja Prawnie zastrzeżony
Strona internetowa przechytrzyć .com

OutWit Hub to oprogramowanie do ekstrakcji danych sieci Web zaprojektowane w celu automatycznego wyodrębniania informacji z zasobów internetowych lub lokalnych. Rozpoznaje i przechwytuje łącza, obrazy, dokumenty, kontakty, powtarzające się słownictwo i frazy, kanały RSS oraz konwertuje ustrukturyzowane i nieustrukturyzowane dane w sformatowane tabele, które można wyeksportować do arkuszy kalkulacyjnych lub baz danych . Pierwsza wersja została wydana w 2010 roku. Wersja 9.0 została wydana w styczniu 2020 roku.

Program zawiera przeglądarkę opartą na Mozilli oraz pasek boczny, który daje dostęp do wielu widoków z predefiniowanymi ekstraktorami. Strony internetowe i dokumenty tekstowe są podzielone na różne części składowe, prezentowane w tych widokach jako tabele. Aplikacja może nawigować po serii linków i sekwencji stron wyników wyszukiwania w celu wyodrębnienia elementów informacji, uporządkowania ich w tabelach i wyeksportowania do różnych formatów. Predefiniowane ekstraktory pozwalają na gromadzenie ustrukturyzowanych tabel, list lub kanałów. Można również tworzyć skrobaki niestandardowe w celu wyodrębniania danych z mniej ustrukturyzowanych elementów strony. Wyrażenia regularne mogą być zawarte w skrobakach, jak również w innych częściach aplikacji w celu zdefiniowania zmiennych znaczników rozpoznawania.

Chociaż OutWit Hub jest przedstawiany jako narzędzie dla użytkowników nietechnicznych, fakt, że aplikacja nie wykorzystuje struktury modelu obiektowego dokumentu do swoich ekstrakcji, zapobiega wizualnemu skrobaniu danych „wskaż i chwyć” i zmusza użytkownika, który chce tworzyć niestandardowe skrobaki do definiowania znaczników w kodzie źródłowym strony. Zaletą tego podejścia jest jednak to, że umożliwia bardziej precyzyjne definiowanie masek ekstrakcji niż węzły HTML i szybsze wykonanie, ponieważ drzewo modelu obiektów dokumentu nie musi być renderowane przez przeglądarkę w czasie ekstrakcji.

Wersje

Ograniczoną bezpłatną wersję można pobrać ze strony wydawcy i witryn pobierania oprogramowania shareware .

Cechy

  • Rozpoznawanie i wyodrębnianie linków, adresów e-mail, danych strukturalnych i nieustrukturyzowanych, wiadomości RSS
  • Ekstrakcja i pobieranie obrazów i dokumentów
  • Ekstrakcja tekstu ze słownikiem słów i grup słów według częstotliwości
  • Zautomatyzowane przeglądanie ze zdefiniowanymi przez użytkownika regułami eksploracji sieci
  • Automatyczne generowanie zapytań i adresów URL według wzorców
  • Katalogi linków i zapytań
  • Skrobaki niestandardowe
  • Automatyzacja makr
  • Okresowe wykonywanie pracy

Zaawansowane funkcje

Wersja Enterprise aplikacji zawiera zaawansowane funkcje ekstrakcji i automatyzacji do ekstrakcji określonych lub dużych ilości, wysyłanie serii automatycznie generowanych zapytań HTTP lub POST oraz przesyłanie zeskrobanych danych na serwery FTP.

Rozszerzenia przeglądarki

Firefoxa

OutWit Hub to wycofane rozszerzenie Firefoksa.

Zobacz też

Podobne narzędzia

  1. ^ „Używanie „separatorów i etykiet” w Outwit Hub pro” . Datacrumble . Maj 2013.
  2. ^ „Jak to zrobić: skrobanie brzydkiego kodu HTML przy użyciu„ wyrażeń regularnych ”w skrobaku OutWit Hub” . Dziennikarstwo internetowe . listopad 2012.
  3. ^ „Jak używać OutWit Hub do bezpłatnego zbierania danych” . Interhaktywy . marzec 2014 r.
  4. ^ „OutWit Hub - dodatki do Firefoksa” . 15 listopada 2017 r. Zarchiwizowane od oryginału w dniu 15 listopada 2017 r.

Linki zewnętrzne