Centrum OutWit
Deweloperzy | Technologie OutWit |
---|---|
System operacyjny | Microsoft Windows , macOS , Linux |
Typ | Skrobanie sieci , menedżer pobierania |
Licencja | Prawnie zastrzeżony |
Strona internetowa |
OutWit Hub to oprogramowanie do ekstrakcji danych sieci Web zaprojektowane w celu automatycznego wyodrębniania informacji z zasobów internetowych lub lokalnych. Rozpoznaje i przechwytuje łącza, obrazy, dokumenty, kontakty, powtarzające się słownictwo i frazy, kanały RSS oraz konwertuje ustrukturyzowane i nieustrukturyzowane dane w sformatowane tabele, które można wyeksportować do arkuszy kalkulacyjnych lub baz danych . Pierwsza wersja została wydana w 2010 roku. Wersja 9.0 została wydana w styczniu 2020 roku.
Program zawiera przeglądarkę opartą na Mozilli oraz pasek boczny, który daje dostęp do wielu widoków z predefiniowanymi ekstraktorami. Strony internetowe i dokumenty tekstowe są podzielone na różne części składowe, prezentowane w tych widokach jako tabele. Aplikacja może nawigować po serii linków i sekwencji stron wyników wyszukiwania w celu wyodrębnienia elementów informacji, uporządkowania ich w tabelach i wyeksportowania do różnych formatów. Predefiniowane ekstraktory pozwalają na gromadzenie ustrukturyzowanych tabel, list lub kanałów. Można również tworzyć skrobaki niestandardowe w celu wyodrębniania danych z mniej ustrukturyzowanych elementów strony. Wyrażenia regularne mogą być zawarte w skrobakach, jak również w innych częściach aplikacji w celu zdefiniowania zmiennych znaczników rozpoznawania.
Chociaż OutWit Hub jest przedstawiany jako narzędzie dla użytkowników nietechnicznych, fakt, że aplikacja nie wykorzystuje struktury modelu obiektowego dokumentu do swoich ekstrakcji, zapobiega wizualnemu skrobaniu danych „wskaż i chwyć” i zmusza użytkownika, który chce tworzyć niestandardowe skrobaki do definiowania znaczników w kodzie źródłowym strony. Zaletą tego podejścia jest jednak to, że umożliwia bardziej precyzyjne definiowanie masek ekstrakcji niż węzły HTML i szybsze wykonanie, ponieważ drzewo modelu obiektów dokumentu nie musi być renderowane przez przeglądarkę w czasie ekstrakcji.
Wersje
Ograniczoną bezpłatną wersję można pobrać ze strony wydawcy i witryn pobierania oprogramowania shareware .
Cechy
- Rozpoznawanie i wyodrębnianie linków, adresów e-mail, danych strukturalnych i nieustrukturyzowanych, wiadomości RSS
- Ekstrakcja i pobieranie obrazów i dokumentów
- Ekstrakcja tekstu ze słownikiem słów i grup słów według częstotliwości
- Zautomatyzowane przeglądanie ze zdefiniowanymi przez użytkownika regułami eksploracji sieci
- Automatyczne generowanie zapytań i adresów URL według wzorców
- Katalogi linków i zapytań
- Skrobaki niestandardowe
- Automatyzacja makr
- Okresowe wykonywanie pracy
Zaawansowane funkcje
Wersja Enterprise aplikacji zawiera zaawansowane funkcje ekstrakcji i automatyzacji do ekstrakcji określonych lub dużych ilości, wysyłanie serii automatycznie generowanych zapytań HTTP lub POST oraz przesyłanie zeskrobanych danych na serwery FTP.
Rozszerzenia przeglądarki
Firefoxa
OutWit Hub to wycofane rozszerzenie Firefoksa.
Zobacz też
Podobne narzędzia
- fajki yahoo
- Automation Anywhere - ekstraktor sieciowy i system automatyzacji
- Octatools.com
- ^ „Używanie „separatorów i etykiet” w Outwit Hub pro” . Datacrumble . Maj 2013.
- ^ „Jak to zrobić: skrobanie brzydkiego kodu HTML przy użyciu„ wyrażeń regularnych ”w skrobaku OutWit Hub” . Dziennikarstwo internetowe . listopad 2012.
- ^ „Jak używać OutWit Hub do bezpłatnego zbierania danych” . Interhaktywy . marzec 2014 r.
- ^ „OutWit Hub - dodatki do Firefoksa” . 15 listopada 2017 r. Zarchiwizowane od oryginału w dniu 15 listopada 2017 r.