Szkic silnika

Szkic silnika
Oryginalni autorzy Adam Kilgarriff , Pavel Rychlý
Deweloperzy Lexical Computing CZ sro
Pierwsze wydanie 23 lipca 2003 ; 19 lat temu ( 23.07.2003 )
Napisane w Idź , JavaScript , jQuery , C++ , Python
System operacyjny Linuks , Mac OS X
Platforma IA-32 , x64 lub IA-64
Norma (e) Unikod
Dostępne w 11 języków
Lista języków
arabski, krymsko-tatarski, czeski, angielski, francuski, niemiecki, irlandzki, włoski, nko, hiszpański, ukraiński
Typ Menedżer korpusu dla ponad 90 języków, system zarządzania bazą danych
Licencja oprogramowanie własnościowe ; dostępne są zarówno wersje komercyjne , jak i bezpłatne
Strona internetowa www.sketchengine.eu _ _

Sketch Engine to oprogramowanie do zarządzania korpusem i analizy tekstu rozwijane przez Lexical Computing CZ sro od 2003 roku. Jego celem jest umożliwienie osobom badającym zachowania językowe ( leksykografom , badaczom lingwistyki korpusowej , tłumaczom lub osobom uczącym się języków) przeszukiwanie dużych zbiorów tekstów według złożonych i zapytania motywowane językowo. Sketch Engine zyskał swoją nazwę od jednej z kluczowych funkcji, szkiców słów : jednostronicowe, automatyczne, oparte na korpusach podsumowania zachowania gramatycznego i kolokacyjnego słowa. Obecnie obsługuje i udostępnia korpusy w ponad 90 językach.

Historia rozwoju

Sketch Engine jest produktem Lexical Computing Limited, firmy założonej w 2003 roku przez leksykografa i naukowca Adama Kilgarriffa . Rozpoczął współpracę z Pavelem Rychlým, informatykiem pracującym w Centrum Przetwarzania Języka Naturalnego Uniwersytetu Masaryka oraz twórcą Manatee i Bonito (dwóch głównych części pakietu oprogramowania), i wprowadził koncepcję szkiców słów .

Od tego czasu Sketch Engine jest oprogramowaniem komercyjnym, jednak wszystkie podstawowe funkcje Manatee i Bonito, które zostały opracowane do 2003 roku (i od tego czasu były rozszerzane) są bezpłatnie dostępne na licencji GPL w pakiecie NoSketch Engine.

Cechy

Lista narzędzi dostępnych w Sketch Engine:

  • Szkice słów - jednostronicowe, automatycznie wyprowadzane podsumowanie zachowania gramatycznego i kolokacyjnego słowa
  • Różnica w szkicu słów - porównuje i kontrastuje dwa słowa, analizując ich kolokację
  • Distributional Thesaurus – automatyczny tezaurus wyszukujący słowa o podobnym znaczeniu lub występujące w tym samym/podobnym kontekście
  • zgodności – znajduje przykłady formy wyrazu, lematu, frazy, znacznika lub struktury złożonej
  • kolokacji – analiza współwystępowania słów wyświetlająca najczęstsze słowa (do wyszukiwanego słowa), które można uznać za kandydatów do kolokacji
  • Listy słów – generuje listy częstotliwości, które można filtrować według złożonych kryteriów
  • n-gramy – generuje listy częstotliwości wyrażeń wielowyrazowych
  • Terminologia / Ekstrakcja słów kluczowych (zarówno jednojęzycznych, jak i dwujęzycznych) – automatyczna ekstrakcja słów kluczowych i terminów wielowyrazowych z tekstów (na podstawie częstotliwości występowania i kryteriów językowych)
  • Analiza diachroniczna ( Trendy ) – wykrywanie słów, które ulegają zmianom częstotliwości użycia w czasie (pokaż słowa zyskujące popularność)
  • Tworzenie korpusu i zarządzanie nim – twórz korpusy z sieci lub przesłanych tekstów, w tym oznaczanie części mowy i lematyzację , które można wykorzystać jako oprogramowanie do eksploracji danych
  • Korpusy równoległe (dwujęzyczne) – wyszukiwanie przykładów tłumaczeń (EUR-Lex corpus, Europarl corpus , OPUS corpus itp.) lub budowanie korpusów równoległych z własnych dopasowanych tekstów
  • Analiza typu tekstu – statystyki metadanych w korpusie

Ekstrakcja słów kluczowych i terminologii

Jest to narzędzie do automatycznej ekstrakcji terminów w celu identyfikacji słów typowych dla danego korpusu, dokumentu lub tekstu. Obsługuje wyodrębnianie jednostek jednowyrazowych i wielowyrazowych z tekstów jednojęzycznych i dwujęzycznych. Funkcja wyodrębniania terminologii zapewnia listę odpowiednich terminów w oparciu o porównanie z dużym zbiorem języka ogólnego. Narzędzie to jest jednocześnie odrębną usługą działającą na zasadach OneClick z dedykowanym interfejsem.

Wykaz korpusów tekstowych

Sketch Engine zapewnia dostęp do ponad 700 korpusów tekstowych. Istnieją zarówno jednojęzyczne, jak i wielojęzyczne korpusy językowe o różnej wielkości (od tysiąca do 60 miliardów słów) i różnych źródłach (internet, książki, napisy, dokumenty prawne itp.). Lista korpusów obejmuje British National Corpus , Brown Corpus , Cambridge Academic English Corpus i Cambridge Learner Corpus, CHILDES korpusy języka dziecięcego, OpenSubtitles (zestaw 60 równoległych korpusów), 24 wielojęzyczne korpusy dokumentów EUR-Lex , TenTen Corpus Family (wielomiliardowe korpusy internetowe), korpusy trendów (korpory monitorujące z codziennymi aktualizacjami) itp.

Architektura

Sketch Engine thesaurus page
Chmura tezaurusa lematu działa w Sketch Engine

Sketch Engine składa się z trzech głównych komponentów: podstawowego systemu zarządzania bazą danych o nazwie Manatee, interfejsu wyszukiwania interfejsu internetowego o nazwie Bonito oraz interfejsu internetowego do tworzenia i zarządzania korpusem o nazwie Corpus Architect.

Krowa morska

Manatee to system zarządzania bazą danych opracowany specjalnie do efektywnego indeksowania dużych korpusów tekstowych. Opiera się na idei indeksowania odwróconego (zachowanie indeksu wszystkich pozycji danego słowa w tekście). Służy do indeksowania korpusów tekstowych zawierających dziesiątki miliardów słów.

Przeszukiwanie korpusów indeksowanych przez Manatee odbywa się poprzez formułowanie zapytań w Corpus Query Language (CQL).

Manatee jest napisany w C++ i oferuje interfejs API dla wielu innych języków programowania, w tym Python , Java , Perl i Ruby . Niedawno został przepisany na Go w celu szybszego przetwarzania zapytań korpusowych.

Bonito

Bonito to interfejs sieciowy dla Manatee zapewniający dostęp do wyszukiwania w korpusie. W modelu klient-serwer Manatee jest serwerem, a Bonito odgrywa rolę klienta. Jest napisany w Pythonie .

Architekt Korpusu

Corpus Architect to interfejs sieciowy zapewniający funkcje budowania korpusu i zarządzania nim. Jest również napisany w Pythonie .

Aplikacje

Sketch Engine był używany przez największe brytyjskie i inne wydawnictwa do tworzenia słowników, takich jak Macmillan English Dictionary , Dictionnaires Le Robert , Oxford University Press czy Shogakukan , a czterech z pięciu największych brytyjskich wydawców słowników używa Sketch Engine.

Zobacz też

  • SkELL – darmowy serwis internetowy do nauki języków oparty na Sketch Engine

Powiązane publikacje

Linki zewnętrzne