Podkorpus z ręcznie opatrzonymi adnotacjami

Manually Adnotated Sub-Corpus (MASC) to zrównoważony podzbiór 500 000 słów tekstów pisanych i transkrybowanych wypowiedzi, pochodzących głównie z Open American National Corpus (OANC). OANC to 15-milionowy (i rosnący) zbiór amerykańskiego języka angielskiego tworzony od 1990 r., z których wszystkie należą do domeny publicznej lub w inny sposób są wolne od ograniczeń użytkowania i redystrybucji.

Cały MASC zawiera ręcznie sprawdzane adnotacje dotyczące struktury logicznej (nagłówki, sekcje, akapity itp.), granic zdań, trzech różnych tokenizacji z powiązanymi znacznikami części mowy, płytkiej analizy (fragmenty rzeczowników i czasowników), nazwanych jednostek (osoba, lokalizacja, organizacja, data i godzina) oraz składnia Penn Treebank . Dodatkowe ręcznie utworzone lub zweryfikowane adnotacje zostały utworzone przez projekt MASC dla części podkorpusu, w tym adnotacje pełnotekstowe dla elementów ramek FrameNet oraz ponad 100 000 zdań ze znacznikami sensu WordNet 3.1, z których jedna dziesiąta jest również opatrzona adnotacjami dla Elementy ramki FrameNet . Adnotacje całości lub części podkorpusu dla szerokiej gamy innych zjawisk językowych zostały wniesione przez inne projekty, w tym PropBank , TimeBank , opinię MPQA i kilka innych. Do końca 2016 r. planowane jest udostępnienie adnotacji referencyjnych i granic klauzul całego korpusu MASC.

W dystrybucji MASC są również zawarte adnotacje sensu WordNet dla wszystkich wystąpień 114 słów, jak również adnotacje FrameNet dla 50-100 wystąpień każdego ze 114 słów. Zdania z WordNet i FrameNet są również dystrybuowane jako część MASC Sentence Corpus .

Gatunki

W przeciwieństwie do większości ogólnodostępnych korpusów zawierających szeroką gamę adnotacji językowych, MASC zawiera wyważony wybór tekstów z szerokiej gamy gatunków:

Gatunek muzyczny	Żadnych plików	Brak słów	Korpus Pkt
Transkrypcja sądowa	2	30052	6%
Zapis debaty	2	32325	6%
E-mail	78	27642	6%
Praca pisemna	7	25590	5%
Fikcja	5	31518	6%
Dokumenty rządowe	5	24578	5%
Dziennik	10	25635	5%
Listy	40	23325	5%
Gazeta	41	23545	5%
Literatura faktu	4	25182	5%
Mówiony	11	25783	5%
Techniczny	8	27895	6%
Poradniki podróżne	7	26708	5%
Świergot	2	24180	5%
Blog	21	28199	6%
Fiklety	5	26299	5%
Scenariusz	2	28240	6%
spam	110	23490	5%
Żarty	16	26582	5%
CAŁKOWITY	376	506768

Adnotacje

Obecnie MASC zawiera siedemnaście różnych typów adnotacji językowych (* = w produkcji; ** obecnie dostępne tylko w oryginalnym formacie):

Typ adnotacji	Brak słów
Logiczny	506768
Znak	506768
Zdanie	506768
POS/lemmat (BRAMKA)	506768
Punkt sprzedaży (Penn Treebank)	506768
POS (FrameNet)	506768
Rzeczownik	506768
Kawałki czasowników	506768
Nazwane jednostki (osoba, organizacja, miejsce, data)	506768
Składnia Penn Treebank	506768
Korekcja	*506768
Granice klauzul, rozróżnienia jądra/satelity, znaczniki dyskursu	*506768
Ramki/elementy ramek FrameNet	39160
PropBank	**88530
Opinia	51243
Bank Czasu	*55599
Zaangażowana wiara	4614
Wydarzenie	4614
Bank drzew zależności	**5434
Podstawienie leksykalne	**35547

Wszystkie adnotacje MASC, niezależnie od tego, czy zostały wniesione, czy stworzone we własnym zakresie, są transdukowane do formatu Graph Annotation Format (GrAF) zdefiniowanego przez Linguistic Annotation Framework (LAF) ISO TC37 SC4. Narzędzie online ANC2Go może transdukować adnotacje w całości lub w części MASC do dowolnego z kilku innych formatów, w tym formatu CONLL IOB i formatów do użytku w UIMA i General Architecture for Text Engineering .

Dystrybucja

MASC to otwarte źródło danych, z którego każdy może korzystać w dowolnym celu. Jednocześnie jest to wspólny zasób społeczności, który jest utrzymywany dzięki wkładowi społeczności w postaci adnotacji i danych pochodnych. Można go bezpłatnie pobrać ze strony pobierania MASC lub za pośrednictwem Linguistic Data Consortium .

MASC jest również dystrybuowany w formie z tagami części mowy za pomocą zestawu narzędzi języka naturalnego .

Zobacz też

Amerykański Korpus Narodowy

Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). Korpus podrzędny z ręcznymi adnotacjami: zasób społecznościowy dla ludzi i przez nich . Materiały z 48. dorocznego spotkania Stowarzyszenia Lingwistyki Komputerowej, Uppsala, Szwecja.
Passonneau, R., Baker, C., Fellbaum, C., Ide, N. (2012). MASC Word Sense Sentence Corpus . Materiały z ósmej konferencji dotyczącej zasobów językowych i oceny, Stambuł.
Ide, N., Suderman, K., Simms, B. (2010). ANC2Go: aplikacja internetowa do tworzenia dostosowanego korpusu . Proceedings of the Seventh Language Resources and Evaluation Conference (LREC 2010), Valletta, Malta.

Linki zewnętrzne