Brązowy korpus
The Brown University Standard Corpus of Present-Day American English (lub po prostu Brown Corpus ) jest elektronicznym zbiorem próbek tekstu amerykańskiego angielskiego, pierwszym dużym ustrukturyzowanym korpusem różnych gatunków. Korpus ten po raz pierwszy ustawił poprzeczkę w badaniach naukowych nad częstotliwością i rozmieszczeniem kategorii słów w codziennym użyciu języka. Opracowany przez Henry'ego Kučerę i W. Nelsona Francisa z Brown University w Rhode Island , jest to ogólny korpus językowy zawierający 500 próbek języka angielskiego, w sumie około miliona słów, opracowany na podstawie prac opublikowanych w Stanach Zjednoczonych w 1961 roku.
Historia
W 1967 roku Kučera i Francis opublikowali swoją klasyczną pracę Computational Analysis of Present-Day American English , która dostarczyła podstawowych statystyk na temat tego, co dziś jest znane po prostu jako Brown Corpus .
The Brown Corpus był starannie opracowanym wyborem aktualnego amerykańskiego języka angielskiego, obejmującym łącznie około miliona słów zaczerpniętych z wielu różnych źródeł. Kučera i Francis poddali go różnym analizom obliczeniowym, z których skompilowali bogate i różnorodne dzieło, łączące elementy językoznawstwa, psychologii, statystyki i socjologii. Jest bardzo szeroko stosowany w lingwistyce komputerowej i przez wiele lat był jednym z najczęściej cytowanych zasobów w tej dziedzinie.
Wkrótce po opublikowaniu pierwszej analizy leksykostatystycznej , bostoński wydawca Houghton-Mifflin zwrócił się do Kučery z prośbą o dostarczenie miliona słów, trzywierszowej bazy cytowań do nowego American Heritage Dictionary . Ten przełomowy nowy słownik, który pojawił się po raz pierwszy w 1969 roku, był pierwszym słownikiem, który został skompilowany przy użyciu lingwistyki korpusowej dla częstotliwości słów i innych informacji.
Początkowy Brown Corpus zawierał tylko same słowa oraz identyfikator lokalizacji dla każdego z nich. W ciągu następnych kilku lat stosowano znaczniki części mowy. Program tagowania Greene'a i Rubina (patrz część tagowania mowy ) znacznie w tym pomógł, ale wysoki poziom błędów oznaczał, że wymagana była obszerna ręczna korekta.
Oznaczony Brown Corpus wykorzystywał wybór około 80 części mowy, a także specjalne wskaźniki form złożonych, skurczów, obcych słów i kilku innych zjawisk, i stworzył model dla wielu późniejszych korpusów, takich jak Lancaster-Oslo-Bergen Corpus (brytyjski angielski od początku lat 90.) i Freiburg-Brown Corpus of American English (FROWN) (amerykański angielski od początku lat 90.). Tagowanie korpusu umożliwiło znacznie bardziej wyrafinowaną analizę statystyczną, taką jak praca zaprogramowana przez Andrew Mackie i udokumentowana w książkach o gramatyce języka angielskiego.
Interesującym rezultatem jest to, że nawet dla dość dużych próbek wykreślenie słów według malejącej częstości występowania pokazuje hiperbolę : częstość występowania n -tego najczęściej występującego słowa jest z grubsza proporcjonalna do 1/ n . Zatem „the” stanowi prawie 7% Brown Corpus, „do” i „z” więcej niż kolejne 3% każdy; podczas gdy około połowa całego słownictwa liczącego około 50 000 słów to hapax legomena : słowa, które występują tylko raz w korpusie. Ta prosta zależność ranga-częstotliwość została odnotowana dla niezwykłej różnorodności zjawisk przez George'a Kingsleya Zipfa (na przykład patrz jego The Psychobiology of Language ) i jest znana jako prawo Zipfa .
Chociaż Brown Corpus był pionierem w dziedzinie lingwistyki korpusowej, obecnie typowe korpusy (takie jak Corpus of Contemporary American English , British National Corpus czy International Corpus of English ) są zwykle znacznie większe, rzędu 100 milionów słów.
Dystrybucja próbek
Korpus składa się z 500 sampli, rozmieszczonych w 15 gatunkach, w przybliżeniu proporcjonalnie do ilości opublikowanych w 1961 roku w każdym z tych gatunków. Wszystkie wybrane prace zostały opublikowane w 1961 roku; o ile można było ustalić, zostały one po raz pierwszy i zostały napisane przez rodzimych użytkowników amerykańskiego angielskiego.
Każda próbka zaczynała się od losowej granicy zdania w artykule lub innej wybranej jednostce i trwała do pierwszej granicy zdania po 2000 słów. W bardzo nielicznych przypadkach błędne liczenie doprowadziło do tego, że próbki miały mniej niż 2000 słów.
Oryginalne wprowadzanie danych odbywało się na maszynach do dziurkowania z dużymi literami; wielkie litery były oznaczone poprzedzającą gwiazdką, a różne elementy specjalne, takie jak formuły, również miały specjalne kody.
Korpus pierwotnie (1961) zawierał 1 014 312 słów wybranych z 15 kategorii tekstowych:
- A. PRASA: Reportaż ( 44 teksty )
- Polityczny
- Sporty
- Społeczeństwo
- Spot Aktualności
- Budżetowy
- Kulturalny
- B. PRASA: Redakcja ( 27 tekstów )
- Dziennik instytucjonalny
- Osobisty
- Litery do edytora
- C. PRASA: Recenzje ( 17 tekstów )
- teatr
- książki
- muzyka
- taniec
- D. RELIGIA ( 17 tekstów )
- Książki
- Czasopisma
- Traktaty
- E. UMIEJĘTNOŚCI I ZAINTERESOWANIA ( 36 tekstów )
- Książki
- Czasopisma
- F. LORE POPULARNE ( 48 tekstów )
- Książki
- Czasopisma
- G. LITERATURA PIĘKNA - Biografia, wspomnienia itp. ( 75 tekstów )
- Książki
- Czasopisma
- H. RÓŻNE: Organy rządowe i domowe USA ( 30 tekstów )
- Dokumenty rządowe
- Sprawozdania Fundacji
- Raporty branżowe
- Katalog uczelni
- Organy Domu Przemysłu
- J. LEARNED ( 80 tekstów )
- Nauki przyrodnicze
- Medycyna
- Matematyka
- Nauki społeczne i behawioralne
- politologia, prawo, edukacja
- Humanistyka
- Technologia i inżynieria
- K. FIKCJA: Ogólne ( 29 tekstów )
- powieści
- Krótkie historie
- L. FICTION: Mystery and Detective Fiction ( 24 teksty )
- powieści
- Krótkie historie
- M. FIKCJA: Nauka ( 6 tekstów )
- powieści
- Krótkie historie
- N. FIKCJA: Przygoda i western ( 29 tekstów )
- powieści
- Krótkie historie
- P. FIKCJA: Romans i historia miłosna ( 29 tekstów )
- powieści
- Krótkie historie
- R. HUMOR ( 9 tekstów )
- powieści
- Eseje itp.
Zastosowano znaczniki części mowy
Etykietka | Definicja |
---|---|
CC | spójnik koordynujący (i, lub) |
płyta CD | liczebnik główny (jeden, dwa, 2 itd.) |
CS | spójnik podrzędny (jeśli, chociaż) |
BYŁY | tam egzystencjalny |
W | przyimek (w, w, na) |
JJ | przymiotnik |
JJA | przymiotnik + pomocniczy |
JJC | przymiotnik, porównawczy |
JJCC | Przymiotnik + spójnik |
JJS | semantycznie najwyższy przymiotnik (główny, górny) |
JJF | Przymiotnik + Kobieta |
JJM | Przymiotnik + Mężczyzna |
NN | rzeczownik w liczbie pojedynczej lub masowej |
NNA | Rzeczownik + Pomocniczy |
NNC | rzeczownik + spójnik |
NNS | rzeczownik w liczbie mnogiej |
NNP | rzeczownik własny lub część wyrażenia imienia |
NNPC | rzeczownik własny + spójnik |
PPR | zaimek osobowy, liczba pojedyncza |
PRPS | zaimek osobowy, liczba mnoga |
PRP $ | Zaimek dzierżawczy |
RB | przysłówek |
RBR | przysłówek porównawczy |
RBS | najwyższy przysłówek |
VB | czasownik, forma podstawowa |
VBA | czasownik + Pomocniczy, liczba pojedyncza, teraźniejszość |
VBD | czasownik, czas przeszły |
VBG | czasownik, imiesłów teraźniejszy / gerund |
VBN | czasownik, imiesłów bierny |
VBZ | czasownik, 3. pojedynczy prezent |
FW | Obcojęzyczne słowa |
SYM | Symbolika |
GRA SŁÓW | Wszystkie znaki interpunkcyjne |
Zobacz też
- LOB Corpus , korpus brytyjskiego angielskiego oparty na tych samych parametrach co Brown Corpus
- Brytyjski Korpus Narodowy