Podkorpus z ręcznie opatrzonymi adnotacjami

Manually Adnotated Sub-Corpus (MASC) to zrównoważony podzbiór 500 000 słów tekstów pisanych i transkrybowanych wypowiedzi, pochodzących głównie z Open American National Corpus (OANC). OANC to 15-milionowy (i rosnący) zbiór amerykańskiego języka angielskiego tworzony od 1990 r., z których wszystkie należą do domeny publicznej lub w inny sposób są wolne od ograniczeń użytkowania i redystrybucji.

Cały MASC zawiera ręcznie sprawdzane adnotacje dotyczące struktury logicznej (nagłówki, sekcje, akapity itp.), granic zdań, trzech różnych tokenizacji z powiązanymi znacznikami części mowy, płytkiej analizy (fragmenty rzeczowników i czasowników), nazwanych jednostek (osoba, lokalizacja, organizacja, data i godzina) oraz składnia Penn Treebank . Dodatkowe ręcznie utworzone lub zweryfikowane adnotacje zostały utworzone przez projekt MASC dla części podkorpusu, w tym adnotacje pełnotekstowe dla elementów ramek FrameNet oraz ponad 100 000 zdań ze znacznikami sensu WordNet 3.1, z których jedna dziesiąta jest również opatrzona adnotacjami dla Elementy ramki FrameNet . Adnotacje całości lub części podkorpusu dla szerokiej gamy innych zjawisk językowych zostały wniesione przez inne projekty, w tym PropBank , TimeBank , opinię MPQA i kilka innych. Do końca 2016 r. planowane jest udostępnienie adnotacji referencyjnych i granic klauzul całego korpusu MASC.

W dystrybucji MASC są również zawarte adnotacje sensu WordNet dla wszystkich wystąpień 114 słów, jak również adnotacje FrameNet dla 50-100 wystąpień każdego ze 114 słów. Zdania z WordNet i FrameNet są również dystrybuowane jako część MASC Sentence Corpus .

Gatunki

W przeciwieństwie do większości ogólnodostępnych korpusów zawierających szeroką gamę adnotacji językowych, MASC zawiera wyważony wybór tekstów z szerokiej gamy gatunków:

Gatunek muzyczny Żadnych plików Brak słów Korpus Pkt
Transkrypcja sądowa 2 30052 6%
Zapis debaty 2 32325 6%
E-mail 78 27642 6%
Praca pisemna 7 25590 5%
Fikcja 5 31518 6%
Dokumenty rządowe 5 24578 5%
Dziennik 10 25635 5%
Listy 40 23325 5%
Gazeta 41 23545 5%
Literatura faktu 4 25182 5%
Mówiony 11 25783 5%
Techniczny 8 27895 6%
Poradniki podróżne 7 26708 5%
Świergot 2 24180 5%
Blog 21 28199 6%
Fiklety 5 26299 5%
Scenariusz 2 28240 6%
spam 110 23490 5%
Żarty 16 26582 5%
CAŁKOWITY 376 506768

Adnotacje

Obecnie MASC zawiera siedemnaście różnych typów adnotacji językowych (* = w produkcji; ** obecnie dostępne tylko w oryginalnym formacie):

Typ adnotacji Brak słów
Logiczny 506768
Znak 506768
Zdanie 506768
POS/lemmat (BRAMKA) 506768
Punkt sprzedaży (Penn Treebank) 506768
POS (FrameNet) 506768
Rzeczownik 506768
Kawałki czasowników 506768
Nazwane jednostki (osoba, organizacja, miejsce, data) 506768
Składnia Penn Treebank 506768
Korekcja *506768
Granice klauzul, rozróżnienia jądra/satelity, znaczniki dyskursu *506768
Ramki/elementy ramek FrameNet 39160
PropBank **88530
Opinia 51243
Bank Czasu *55599
Zaangażowana wiara 4614
Wydarzenie 4614
Bank drzew zależności **5434
Podstawienie leksykalne **35547

Wszystkie adnotacje MASC, niezależnie od tego, czy zostały wniesione, czy stworzone we własnym zakresie, są transdukowane do formatu Graph Annotation Format (GrAF) zdefiniowanego przez Linguistic Annotation Framework (LAF) ISO TC37 SC4. Narzędzie online ANC2Go może transdukować adnotacje w całości lub w części MASC do dowolnego z kilku innych formatów, w tym formatu CONLL IOB i formatów do użytku w UIMA i General Architecture for Text Engineering .

Dystrybucja

MASC to otwarte źródło danych, z którego każdy może korzystać w dowolnym celu. Jednocześnie jest to wspólny zasób społeczności, który jest utrzymywany dzięki wkładowi społeczności w postaci adnotacji i danych pochodnych. Można go bezpłatnie pobrać ze strony pobierania MASC lub za pośrednictwem Linguistic Data Consortium .

MASC jest również dystrybuowany w formie z tagami części mowy za pomocą zestawu narzędzi języka naturalnego .

Zobacz też

Linki zewnętrzne