Korpus Lancaster-Oslo-Bergen
Lancaster -Oslo/Bergen (LOB) Corpus to liczący milion słów zbiór brytyjskich tekstów angielskich, który został opracowany w latach 70 . Bergen , aby zapewnić brytyjski odpowiednik Brown Corpus opracowanego przez Henry'ego Kučerę i W. Nelsona Francisa dla amerykańskiego języka angielskiego w latach 60.
Jego skład został zaprojektowany tak, aby jak najbardziej odpowiadał oryginalnemu korpusowi Browna pod względem wielkości i gatunków, korzystając z dokumentów opublikowanych w Wielkiej Brytanii w 1961 roku przez brytyjskich autorów. Oba korpusy składają się z 500 próbek, z których każda zawiera około 2000 słów w następujących gatunkach:
Etykieta | Kategoria tekstu | Brązowy korpus | Korpus LOB |
---|---|---|---|
A | Prasa: reportaż | 44 | 44 |
B | Prasa: redakcyjna | 27 | 27 |
C | Prasa: recenzje | 17 | 17 |
D | Religia | 17 | 17 |
mi | Umiejętności, zawody i hobby | 36 | 38 |
F | Popularna wiedza | 48 | 44 |
G | Literatura piękna, biografia, eseje | 75 | 77 |
H | Różne (dokumenty, raporty itp.) | 30 | 30 |
J | Uczone i naukowe pisma | 80 | 80 |
k | Fikcja ogólna | 29 | 29 |
Ł | Kryminał i powieść detektywistyczna | 24 | 24 |
M | Fantastyka naukowa | 6 | 6 |
N | Przygoda i zachodnia fikcja | 29 | 29 |
P | Romans i historia miłosna | 29 | 29 |
R | Humor | 9 | 9 |
Całkowity | 500 | 500 |
Korpus został również otagowany , tzn. każdemu wyrazowi przypisano kategorie części mowy . [ potrzebne źródło ]
Linki zewnętrzne