Brązowy korpus

Wydział Kognitywnych Nauk Lingwistycznych i Psychologicznych na Uniwersytecie Browna

The Brown University Standard Corpus of Present-Day American English (lub po prostu Brown Corpus ) jest elektronicznym zbiorem próbek tekstu amerykańskiego angielskiego, pierwszym dużym ustrukturyzowanym korpusem różnych gatunków. Korpus ten po raz pierwszy ustawił poprzeczkę w badaniach naukowych nad częstotliwością i rozmieszczeniem kategorii słów w codziennym użyciu języka. Opracowany przez Henry'ego Kučerę i W. Nelsona Francisa z Brown University w Rhode Island , jest to ogólny korpus językowy zawierający 500 próbek języka angielskiego, w sumie około miliona słów, opracowany na podstawie prac opublikowanych w Stanach Zjednoczonych w 1961 roku.

Historia

W 1967 roku Kučera i Francis opublikowali swoją klasyczną pracę Computational Analysis of Present-Day American English , która dostarczyła podstawowych statystyk na temat tego, co dziś jest znane po prostu jako Brown Corpus .

The Brown Corpus był starannie opracowanym wyborem aktualnego amerykańskiego języka angielskiego, obejmującym łącznie około miliona słów zaczerpniętych z wielu różnych źródeł. Kučera i Francis poddali go różnym analizom obliczeniowym, z których skompilowali bogate i różnorodne dzieło, łączące elementy językoznawstwa, psychologii, statystyki i socjologii. Jest bardzo szeroko stosowany w lingwistyce komputerowej i przez wiele lat był jednym z najczęściej cytowanych zasobów w tej dziedzinie.

Wkrótce po opublikowaniu pierwszej analizy leksykostatystycznej , bostoński wydawca Houghton-Mifflin zwrócił się do Kučery z prośbą o dostarczenie miliona słów, trzywierszowej bazy cytowań do nowego American Heritage Dictionary . Ten przełomowy nowy słownik, który pojawił się po raz pierwszy w 1969 roku, był pierwszym słownikiem, który został skompilowany przy użyciu lingwistyki korpusowej dla częstotliwości słów i innych informacji.

Początkowy Brown Corpus zawierał tylko same słowa oraz identyfikator lokalizacji dla każdego z nich. W ciągu następnych kilku lat stosowano znaczniki części mowy. Program tagowania Greene'a i Rubina (patrz część tagowania mowy ) znacznie w tym pomógł, ale wysoki poziom błędów oznaczał, że wymagana była obszerna ręczna korekta.

Oznaczony Brown Corpus wykorzystywał wybór około 80 części mowy, a także specjalne wskaźniki form złożonych, skurczów, obcych słów i kilku innych zjawisk, i stworzył model dla wielu późniejszych korpusów, takich jak Lancaster-Oslo-Bergen Corpus (brytyjski angielski od początku lat 90.) i Freiburg-Brown Corpus of American English (FROWN) (amerykański angielski od początku lat 90.). Tagowanie korpusu umożliwiło znacznie bardziej wyrafinowaną analizę statystyczną, taką jak praca zaprogramowana przez Andrew Mackie i udokumentowana w książkach o gramatyce języka angielskiego.

Interesującym rezultatem jest to, że nawet dla dość dużych próbek wykreślenie słów według malejącej częstości występowania pokazuje hiperbolę : częstość występowania n -tego najczęściej występującego słowa jest z grubsza proporcjonalna do 1/ n . Zatem „the” stanowi prawie 7% Brown Corpus, „do” i „z” więcej niż kolejne 3% każdy; podczas gdy około połowa całego słownictwa liczącego około 50 000 słów to hapax legomena : słowa, które występują tylko raz w korpusie. Ta prosta zależność ranga-częstotliwość została odnotowana dla niezwykłej różnorodności zjawisk przez George'a Kingsleya Zipfa (na przykład patrz jego The Psychobiology of Language ) i jest znana jako prawo Zipfa .

Chociaż Brown Corpus był pionierem w dziedzinie lingwistyki korpusowej, obecnie typowe korpusy (takie jak Corpus of Contemporary American English , British National Corpus czy International Corpus of English ) są zwykle znacznie większe, rzędu 100 milionów słów.

Dystrybucja próbek

Korpus składa się z 500 sampli, rozmieszczonych w 15 gatunkach, w przybliżeniu proporcjonalnie do ilości opublikowanych w 1961 roku w każdym z tych gatunków. Wszystkie wybrane prace zostały opublikowane w 1961 roku; o ile można było ustalić, zostały one po raz pierwszy i zostały napisane przez rodzimych użytkowników amerykańskiego angielskiego.

Każda próbka zaczynała się od losowej granicy zdania w artykule lub innej wybranej jednostce i trwała do pierwszej granicy zdania po 2000 słów. W bardzo nielicznych przypadkach błędne liczenie doprowadziło do tego, że próbki miały mniej niż 2000 słów.

Oryginalne wprowadzanie danych odbywało się na maszynach do dziurkowania z dużymi literami; wielkie litery były oznaczone poprzedzającą gwiazdką, a różne elementy specjalne, takie jak formuły, również miały specjalne kody.

Korpus pierwotnie (1961) zawierał 1 014 312 słów wybranych z 15 kategorii tekstowych:

  • A. PRASA: Reportaż ( 44 teksty )
    • Polityczny
    • Sporty
    • Społeczeństwo
    • Spot Aktualności
    • Budżetowy
    • Kulturalny
  • B. PRASA: Redakcja ( 27 tekstów )
    • Dziennik instytucjonalny
    • Osobisty
    • Litery do edytora
  • C. PRASA: Recenzje ( 17 tekstów )
    • teatr
    • książki
    • muzyka
    • taniec
  • D. RELIGIA ( 17 tekstów )
    • Książki
    • Czasopisma
    • Traktaty
  • E. UMIEJĘTNOŚCI I ZAINTERESOWANIA ( 36 tekstów )
    • Książki
    • Czasopisma
  • F. LORE POPULARNE ( 48 tekstów )
    • Książki
    • Czasopisma
  • G. LITERATURA PIĘKNA - Biografia, wspomnienia itp. ( 75 tekstów )
    • Książki
    • Czasopisma
  • H. RÓŻNE: Organy rządowe i domowe USA ( 30 tekstów )
    • Dokumenty rządowe
    • Sprawozdania Fundacji
    • Raporty branżowe
    • Katalog uczelni
    • Organy Domu Przemysłu
  • J. LEARNED ( 80 tekstów )
    • Nauki przyrodnicze
    • Medycyna
    • Matematyka
    • Nauki społeczne i behawioralne
    • politologia, prawo, edukacja
    • Humanistyka
    • Technologia i inżynieria
  • K. FIKCJA: Ogólne ( 29 tekstów )
    • powieści
    • Krótkie historie
  • L. FICTION: Mystery and Detective Fiction ( 24 teksty )
    • powieści
    • Krótkie historie
  • M. FIKCJA: Nauka ( 6 tekstów )
    • powieści
    • Krótkie historie
  • N. FIKCJA: Przygoda i western ( 29 tekstów )
    • powieści
    • Krótkie historie
  • P. FIKCJA: Romans i historia miłosna ( 29 tekstów )
    • powieści
    • Krótkie historie
  • R. HUMOR ( 9 tekstów )
    • powieści
    • Eseje itp.

Zastosowano znaczniki części mowy

Etykietka Definicja
CC spójnik koordynujący (i, lub)
płyta CD liczebnik główny (jeden, dwa, 2 itd.)
CS spójnik podrzędny (jeśli, chociaż)
BYŁY tam egzystencjalny
W przyimek (w, w, na)
JJ przymiotnik
JJA przymiotnik + pomocniczy
JJC przymiotnik, porównawczy
JJCC Przymiotnik + spójnik
JJS semantycznie najwyższy przymiotnik (główny, górny)
JJF Przymiotnik + Kobieta
JJM Przymiotnik + Mężczyzna
NN rzeczownik w liczbie pojedynczej lub masowej
NNA Rzeczownik + Pomocniczy
NNC rzeczownik + spójnik
NNS rzeczownik w liczbie mnogiej
NNP rzeczownik własny lub część wyrażenia imienia
NNPC rzeczownik własny + spójnik
PPR zaimek osobowy, liczba pojedyncza
PRPS zaimek osobowy, liczba mnoga
PRP $ Zaimek dzierżawczy
RB przysłówek
RBR przysłówek porównawczy
RBS najwyższy przysłówek
VB czasownik, forma podstawowa
VBA czasownik + Pomocniczy, liczba pojedyncza, teraźniejszość
VBD czasownik, czas przeszły
VBG czasownik, imiesłów teraźniejszy / gerund
VBN czasownik, imiesłów bierny
VBZ czasownik, 3. pojedynczy prezent
FW Obcojęzyczne słowa
SYM Symbolika
GRA SŁÓW Wszystkie znaki interpunkcyjne

Zobacz też

Linki zewnętrzne