Podkorpus z ręcznie opatrzonymi adnotacjami
Manually Adnotated Sub-Corpus (MASC) to zrównoważony podzbiór 500 000 słów tekstów pisanych i transkrybowanych wypowiedzi, pochodzących głównie z Open American National Corpus (OANC). OANC to 15-milionowy (i rosnący) zbiór amerykańskiego języka angielskiego tworzony od 1990 r., z których wszystkie należą do domeny publicznej lub w inny sposób są wolne od ograniczeń użytkowania i redystrybucji.
Cały MASC zawiera ręcznie sprawdzane adnotacje dotyczące struktury logicznej (nagłówki, sekcje, akapity itp.), granic zdań, trzech różnych tokenizacji z powiązanymi znacznikami części mowy, płytkiej analizy (fragmenty rzeczowników i czasowników), nazwanych jednostek (osoba, lokalizacja, organizacja, data i godzina) oraz składnia Penn Treebank . Dodatkowe ręcznie utworzone lub zweryfikowane adnotacje zostały utworzone przez projekt MASC dla części podkorpusu, w tym adnotacje pełnotekstowe dla elementów ramek FrameNet oraz ponad 100 000 zdań ze znacznikami sensu WordNet 3.1, z których jedna dziesiąta jest również opatrzona adnotacjami dla Elementy ramki FrameNet . Adnotacje całości lub części podkorpusu dla szerokiej gamy innych zjawisk językowych zostały wniesione przez inne projekty, w tym PropBank , TimeBank , opinię MPQA i kilka innych. Do końca 2016 r. planowane jest udostępnienie adnotacji referencyjnych i granic klauzul całego korpusu MASC.
W dystrybucji MASC są również zawarte adnotacje sensu WordNet dla wszystkich wystąpień 114 słów, jak również adnotacje FrameNet dla 50-100 wystąpień każdego ze 114 słów. Zdania z WordNet i FrameNet są również dystrybuowane jako część MASC Sentence Corpus .
Gatunki
W przeciwieństwie do większości ogólnodostępnych korpusów zawierających szeroką gamę adnotacji językowych, MASC zawiera wyważony wybór tekstów z szerokiej gamy gatunków:
Gatunek muzyczny | Żadnych plików | Brak słów | Korpus Pkt |
---|---|---|---|
Transkrypcja sądowa | 2 | 30052 | 6% |
Zapis debaty | 2 | 32325 | 6% |
78 | 27642 | 6% | |
Praca pisemna | 7 | 25590 | 5% |
Fikcja | 5 | 31518 | 6% |
Dokumenty rządowe | 5 | 24578 | 5% |
Dziennik | 10 | 25635 | 5% |
Listy | 40 | 23325 | 5% |
Gazeta | 41 | 23545 | 5% |
Literatura faktu | 4 | 25182 | 5% |
Mówiony | 11 | 25783 | 5% |
Techniczny | 8 | 27895 | 6% |
Poradniki podróżne | 7 | 26708 | 5% |
Świergot | 2 | 24180 | 5% |
Blog | 21 | 28199 | 6% |
Fiklety | 5 | 26299 | 5% |
Scenariusz | 2 | 28240 | 6% |
spam | 110 | 23490 | 5% |
Żarty | 16 | 26582 | 5% |
CAŁKOWITY | 376 | 506768 |
Adnotacje
Obecnie MASC zawiera siedemnaście różnych typów adnotacji językowych (* = w produkcji; ** obecnie dostępne tylko w oryginalnym formacie):
Typ adnotacji | Brak słów |
---|---|
Logiczny | 506768 |
Znak | 506768 |
Zdanie | 506768 |
POS/lemmat (BRAMKA) | 506768 |
Punkt sprzedaży (Penn Treebank) | 506768 |
POS (FrameNet) | 506768 |
Rzeczownik | 506768 |
Kawałki czasowników | 506768 |
Nazwane jednostki (osoba, organizacja, miejsce, data) | 506768 |
Składnia Penn Treebank | 506768 |
Korekcja | *506768 |
Granice klauzul, rozróżnienia jądra/satelity, znaczniki dyskursu | *506768 |
Ramki/elementy ramek FrameNet | 39160 |
PropBank | **88530 |
Opinia | 51243 |
Bank Czasu | *55599 |
Zaangażowana wiara | 4614 |
Wydarzenie | 4614 |
Bank drzew zależności | **5434 |
Podstawienie leksykalne | **35547 |
Wszystkie adnotacje MASC, niezależnie od tego, czy zostały wniesione, czy stworzone we własnym zakresie, są transdukowane do formatu Graph Annotation Format (GrAF) zdefiniowanego przez Linguistic Annotation Framework (LAF) ISO TC37 SC4. Narzędzie online ANC2Go może transdukować adnotacje w całości lub w części MASC do dowolnego z kilku innych formatów, w tym formatu CONLL IOB i formatów do użytku w UIMA i General Architecture for Text Engineering .
Dystrybucja
MASC to otwarte źródło danych, z którego każdy może korzystać w dowolnym celu. Jednocześnie jest to wspólny zasób społeczności, który jest utrzymywany dzięki wkładowi społeczności w postaci adnotacji i danych pochodnych. Można go bezpłatnie pobrać ze strony pobierania MASC lub za pośrednictwem Linguistic Data Consortium .
MASC jest również dystrybuowany w formie z tagami części mowy za pomocą zestawu narzędzi języka naturalnego .
Zobacz też
- Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). Korpus podrzędny z ręcznymi adnotacjami: zasób społecznościowy dla ludzi i przez nich . Materiały z 48. dorocznego spotkania Stowarzyszenia Lingwistyki Komputerowej, Uppsala, Szwecja.
- Passonneau, R., Baker, C., Fellbaum, C., Ide, N. (2012). MASC Word Sense Sentence Corpus . Materiały z ósmej konferencji dotyczącej zasobów językowych i oceny, Stambuł.
- Ide, N., Suderman, K., Simms, B. (2010). ANC2Go: aplikacja internetowa do tworzenia dostosowanego korpusu . Proceedings of the Seventh Language Resources and Evaluation Conference (LREC 2010), Valletta, Malta.