Korpus Lancaster-Oslo-Bergen

Lancaster -Oslo/Bergen (LOB) Corpus to liczący milion słów zbiór brytyjskich tekstów angielskich, który został opracowany w latach 70 . Bergen , aby zapewnić brytyjski odpowiednik Brown Corpus opracowanego przez Henry'ego Kučerę i W. Nelsona Francisa dla amerykańskiego języka angielskiego w latach 60.

Jego skład został zaprojektowany tak, aby jak najbardziej odpowiadał oryginalnemu korpusowi Browna pod względem wielkości i gatunków, korzystając z dokumentów opublikowanych w Wielkiej Brytanii w 1961 roku przez brytyjskich autorów. Oba korpusy składają się z 500 próbek, z których każda zawiera około 2000 słów w następujących gatunkach:

Etykieta Kategoria tekstu Brązowy korpus Korpus LOB
A Prasa: reportaż 44 44
B Prasa: redakcyjna 27 27
C Prasa: recenzje 17 17
D Religia 17 17
mi Umiejętności, zawody i hobby 36 38
F Popularna wiedza 48 44
G Literatura piękna, biografia, eseje 75 77
H Różne (dokumenty, raporty itp.) 30 30
J Uczone i naukowe pisma 80 80
k Fikcja ogólna 29 29
Ł Kryminał i powieść detektywistyczna 24 24
M Fantastyka naukowa 6 6
N Przygoda i zachodnia fikcja 29 29
P Romans i historia miłosna 29 29
R Humor 9 9
Całkowity 500 500

Korpus został również otagowany , tzn. każdemu wyrazowi przypisano kategorie części mowy . [ potrzebne źródło ]

Linki zewnętrzne