Brązowy korpus

Wydział Kognitywnych Nauk Lingwistycznych i Psychologicznych na Uniwersytecie Browna

The Brown University Standard Corpus of Present-Day American English (lub po prostu Brown Corpus ) jest elektronicznym zbiorem próbek tekstu amerykańskiego angielskiego, pierwszym dużym ustrukturyzowanym korpusem różnych gatunków. Korpus ten po raz pierwszy ustawił poprzeczkę w badaniach naukowych nad częstotliwością i rozmieszczeniem kategorii słów w codziennym użyciu języka. Opracowany przez Henry'ego Kučerę i W. Nelsona Francisa z Brown University w Rhode Island , jest to ogólny korpus językowy zawierający 500 próbek języka angielskiego, w sumie około miliona słów, opracowany na podstawie prac opublikowanych w Stanach Zjednoczonych w 1961 roku.

Historia

W 1967 roku Kučera i Francis opublikowali swoją klasyczną pracę Computational Analysis of Present-Day American English , która dostarczyła podstawowych statystyk na temat tego, co dziś jest znane po prostu jako Brown Corpus .

The Brown Corpus był starannie opracowanym wyborem aktualnego amerykańskiego języka angielskiego, obejmującym łącznie około miliona słów zaczerpniętych z wielu różnych źródeł. Kučera i Francis poddali go różnym analizom obliczeniowym, z których skompilowali bogate i różnorodne dzieło, łączące elementy językoznawstwa, psychologii, statystyki i socjologii. Jest bardzo szeroko stosowany w lingwistyce komputerowej i przez wiele lat był jednym z najczęściej cytowanych zasobów w tej dziedzinie.

Wkrótce po opublikowaniu pierwszej analizy leksykostatystycznej , bostoński wydawca Houghton-Mifflin zwrócił się do Kučery z prośbą o dostarczenie miliona słów, trzywierszowej bazy cytowań do nowego American Heritage Dictionary . Ten przełomowy nowy słownik, który pojawił się po raz pierwszy w 1969 roku, był pierwszym słownikiem, który został skompilowany przy użyciu lingwistyki korpusowej dla częstotliwości słów i innych informacji.

Początkowy Brown Corpus zawierał tylko same słowa oraz identyfikator lokalizacji dla każdego z nich. W ciągu następnych kilku lat stosowano znaczniki części mowy. Program tagowania Greene'a i Rubina (patrz część tagowania mowy ) znacznie w tym pomógł, ale wysoki poziom błędów oznaczał, że wymagana była obszerna ręczna korekta.

Oznaczony Brown Corpus wykorzystywał wybór około 80 części mowy, a także specjalne wskaźniki form złożonych, skurczów, obcych słów i kilku innych zjawisk, i stworzył model dla wielu późniejszych korpusów, takich jak Lancaster-Oslo-Bergen Corpus (brytyjski angielski od początku lat 90.) i Freiburg-Brown Corpus of American English (FROWN) (amerykański angielski od początku lat 90.). Tagowanie korpusu umożliwiło znacznie bardziej wyrafinowaną analizę statystyczną, taką jak praca zaprogramowana przez Andrew Mackie i udokumentowana w książkach o gramatyce języka angielskiego.

Interesującym rezultatem jest to, że nawet dla dość dużych próbek wykreślenie słów według malejącej częstości występowania pokazuje hiperbolę : częstość występowania n -tego najczęściej występującego słowa jest z grubsza proporcjonalna do 1/ n . Zatem „the” stanowi prawie 7% Brown Corpus, „do” i „z” więcej niż kolejne 3% każdy; podczas gdy około połowa całego słownictwa liczącego około 50 000 słów to hapax legomena : słowa, które występują tylko raz w korpusie. Ta prosta zależność ranga-częstotliwość została odnotowana dla niezwykłej różnorodności zjawisk przez George'a Kingsleya Zipfa (na przykład patrz jego The Psychobiology of Language ) i jest znana jako prawo Zipfa .

Chociaż Brown Corpus był pionierem w dziedzinie lingwistyki korpusowej, obecnie typowe korpusy (takie jak Corpus of Contemporary American English , British National Corpus czy International Corpus of English ) są zwykle znacznie większe, rzędu 100 milionów słów.

Dystrybucja próbek

Korpus składa się z 500 sampli, rozmieszczonych w 15 gatunkach, w przybliżeniu proporcjonalnie do ilości opublikowanych w 1961 roku w każdym z tych gatunków. Wszystkie wybrane prace zostały opublikowane w 1961 roku; o ile można było ustalić, zostały one po raz pierwszy i zostały napisane przez rodzimych użytkowników amerykańskiego angielskiego.

Każda próbka zaczynała się od losowej granicy zdania w artykule lub innej wybranej jednostce i trwała do pierwszej granicy zdania po 2000 słów. W bardzo nielicznych przypadkach błędne liczenie doprowadziło do tego, że próbki miały mniej niż 2000 słów.

Oryginalne wprowadzanie danych odbywało się na maszynach do dziurkowania z dużymi literami; wielkie litery były oznaczone poprzedzającą gwiazdką, a różne elementy specjalne, takie jak formuły, również miały specjalne kody.

Korpus pierwotnie (1961) zawierał 1 014 312 słów wybranych z 15 kategorii tekstowych:

A. PRASA: Reportaż ( 44 teksty )
- Polityczny
- Sporty
- Społeczeństwo
- Spot Aktualności
- Budżetowy
- Kulturalny
B. PRASA: Redakcja ( 27 tekstów )
- Dziennik instytucjonalny
- Osobisty
- Litery do edytora
C. PRASA: Recenzje ( 17 tekstów )
- teatr
- książki
- muzyka
- taniec
D. RELIGIA ( 17 tekstów )
- Książki
- Czasopisma
- Traktaty
E. UMIEJĘTNOŚCI I ZAINTERESOWANIA ( 36 tekstów )
- Książki
- Czasopisma
F. LORE POPULARNE ( 48 tekstów )
- Książki
- Czasopisma
G. LITERATURA PIĘKNA - Biografia, wspomnienia itp. ( 75 tekstów )
- Książki
- Czasopisma
H. RÓŻNE: Organy rządowe i domowe USA ( 30 tekstów )
- Dokumenty rządowe
- Sprawozdania Fundacji
- Raporty branżowe
- Katalog uczelni
- Organy Domu Przemysłu
J. LEARNED ( 80 tekstów )
- Nauki przyrodnicze
- Medycyna
- Matematyka
- Nauki społeczne i behawioralne
- politologia, prawo, edukacja
- Humanistyka
- Technologia i inżynieria
K. FIKCJA: Ogólne ( 29 tekstów )
- powieści
- Krótkie historie
L. FICTION: Mystery and Detective Fiction ( 24 teksty )
- powieści
- Krótkie historie
M. FIKCJA: Nauka ( 6 tekstów )
- powieści
- Krótkie historie
N. FIKCJA: Przygoda i western ( 29 tekstów )
- powieści
- Krótkie historie
P. FIKCJA: Romans i historia miłosna ( 29 tekstów )
- powieści
- Krótkie historie
R. HUMOR ( 9 tekstów )
- powieści
- Eseje itp.

Zastosowano znaczniki części mowy

Etykietka	Definicja
CC	spójnik koordynujący (i, lub)
płyta CD	liczebnik główny (jeden, dwa, 2 itd.)
CS	spójnik podrzędny (jeśli, chociaż)
BYŁY	tam egzystencjalny
W	przyimek (w, w, na)
JJ	przymiotnik
JJA	przymiotnik + pomocniczy
JJC	przymiotnik, porównawczy
JJCC	Przymiotnik + spójnik
JJS	semantycznie najwyższy przymiotnik (główny, górny)
JJF	Przymiotnik + Kobieta
JJM	Przymiotnik + Mężczyzna
NN	rzeczownik w liczbie pojedynczej lub masowej
NNA	Rzeczownik + Pomocniczy
NNC	rzeczownik + spójnik
NNS	rzeczownik w liczbie mnogiej
NNP	rzeczownik własny lub część wyrażenia imienia
NNPC	rzeczownik własny + spójnik
PPR	zaimek osobowy, liczba pojedyncza
PRPS	zaimek osobowy, liczba mnoga
PRP $	Zaimek dzierżawczy
RB	przysłówek
RBR	przysłówek porównawczy
RBS	najwyższy przysłówek
VB	czasownik, forma podstawowa
VBA	czasownik + Pomocniczy, liczba pojedyncza, teraźniejszość
VBD	czasownik, czas przeszły
VBG	czasownik, imiesłów teraźniejszy / gerund
VBN	czasownik, imiesłów bierny
VBZ	czasownik, 3. pojedynczy prezent
FW	Obcojęzyczne słowa
SYM	Symbolika
GRA SŁÓW	Wszystkie znaki interpunkcyjne

Zobacz też

LOB Corpus , korpus brytyjskiego angielskiego oparty na tych samych parametrach co Brown Corpus
Brytyjski Korpus Narodowy

Linki zewnętrzne

Lingwistyka korpusowa
Korpusy tekstów, j. ang	Amerykański Korpus Narodowy banku języka angielskiego Bergen Corpus of London Teenage Language Brytyjski Korpus Narodowy Brązowy korpus Korpus Buckeye'a Cambridge English Corpus Korpus współczesnego amerykańskiego angielskiego Korpus Enronu Dziesięć Dziesięć Międzynarodowy korpus języka angielskiego Korpus Lancaster-Oslo-Bergen Oxford English Corpus PropBank Korpus mówionego języka angielskiego CZAS CzasownikNet Wellington Corpus mówionego języka angielskiego w Nowej Zelandii
Korpusy tekstowe, inne niż angielskie	Korpus Bijankhana DZIECI CorCenCC Narodowy Korpus Współczesnego Walijskiego Korpus języka chorwackiego Chorwacki Korpus Narodowy Czeski Korpus Narodowy Korpus Europarl Niemiecki korpus referencyjny Korpus Hamshahri Narodowy Korpus Języka Polskiego Projekt korpusu tekstów neoasyryjskich Perski korpus mowy Koraniczny korpus arabski Rosyjski Korpus Narodowy Szkocki korpus tekstów i mowy Słoweński Korpus Narodowy TalkBank Tatoeba Jednojęzyczny korpus Teheranu Tekstaro de Esperanto Rodzina TenTen Corpus Tezaurus Linguae Graecae
Organizacje	Konsorcjum BNC KOBUDOWAĆ Szkic silnika