Międzynarodowy korpus języka angielskiego
International Corpus of English (ICE) to zbiór korpusów reprezentujących odmiany języka angielskiego z całego świata. Uwzględniono ponad dwadzieścia krajów lub grup krajów, w których angielski jest pierwszym językiem lub oficjalnym drugim językiem.
Historia
Celem Sidneya Greenbauma , jakim było skompilowanie korpusów, które porównywałyby składnię światowego języka angielskiego, stał się projekt ICE, który został zrealizowany przez profesora Charlesa F. Meyera. Sidney Greenbaum przewidział, że międzynarodowe zespoły naukowców będą zbierać porównywalne krajowe odmiany języka angielskiego, zarówno w mowie, jak iw piśmie. Porównywalnymi odmianami byłby brytyjski angielski, amerykański angielski i indyjski angielski, które byłyby reprezentowane przez korpusy komputerowe. Korpusy są wykorzystywane przez badaczy do porównywania składni odmian języka angielskiego. Uzupełnienie korpusów ICE wymagałoby kompleksowej analizy językowej odmian języka angielskiego, które się pojawiły. Bieżące badania dla ICE są realizowane przez międzynarodowe zespoły w zróżnicowanych regionach. Projekt rozpoczął się w 1990 roku, a jego głównym celem było zebranie materiałów do badań porównawczych języka angielskiego na całym świecie. Dwadzieścia trzy zespoły badawcze na całym świecie przygotowują elektroniczne korpusy własnej krajowej lub regionalnej odmiany języka angielskiego. Każdy korpus ICE składa się z miliona słów mówionych i pisanych w języku angielskim wyprodukowanych po 1989 roku. W większości uczestniczących krajów projekt ICE stymuluje pierwsze systematyczne badanie różnorodności narodowej. Aby zapewnić kompatybilność korpusów składowych, każdy zespół stosuje wspólny projekt korpusu, a także wspólny schemat adnotacji gramatycznych.
Opis
Każdy korpus zawiera milion słów w 500 tekstach po 2000 słów, zgodnie z metodologią próbkowania stosowaną w Brown Corpus . Jednak w przeciwieństwie do korpusu Browna czy Lancaster-Oslo-Bergen (LOB) (a nawet megakorporów, takich jak British National Corpus ), większość tekstów pochodzi z danych mówionych.
Mając tylko milion słów na korpus, korpusy ICE są uważane za bardzo małe jak na współczesne standardy. Korpusy ICE zawierają 60% (600 000 słów) ortograficznej transkrypcji mówionego języka angielskiego. Ojciec projektu, Sidney Greenbaum, nalegał na prymat słowa mówionego, po współpracy Randolpha Quirka i Jana Svartvika nad oryginalnym London-Lund Corpus (LLC). Ten nacisk na transkrypcję słowo w słowo wyróżnia ICE spośród wielu innych korpusów, w tym zawierających np. parafrazy parlamentarne czy prawnicze.
Korpusy składają się wyłącznie z danych z 1990 roku lub później. Osoby, od których zebrano dane, to wszystkie osoby dorosłe, które wykształciły się w języku angielskim i albo urodziły się, albo przeniosły się w młodym wieku do kraju, do którego przypisane są ich dane. Istnieją próbki wypowiedzi i tekstów zarówno mężczyzn, jak i kobiet z różnych grup wiekowych, ale strona internetowa korpusu zwraca uwagę, że „Proporcje nie są jednak reprezentatywne dla proporcji w całej populacji: kobiety nie są jednakowo reprezentowani w zawodach takich jak polityka i prawo, a zatem nie produkują równych ilości dyskursu w tych dziedzinach”.
Brytyjski składnik ICE, ICE-GB, jest w pełni analizowany ze szczegółowym Quirk et al. gramatykę struktur frazowych , a analizy zostały dokładnie sprawdzone i zakończone. Ta analiza obejmuje oznaczanie części mowy i analizowanie całego korpusu. Bank drzew można dokładnie przeszukiwać i eksplorować za pomocą programu narzędziowego ICE Corpus Utility lub oprogramowania ICECUP . Więcej informacji znajduje się w podręczniku.
Aby zapewnić zgodność między poszczególnymi korpusami w ICE, każdy zespół stosuje wspólny projekt korpusu, a także wspólny schemat adnotacji gramatycznych. Wiele korpusów jest obecnie dostępnych do pobrania na oficjalnej stronie internetowej ICE, chociaż niektóre wymagają licencji. Inne jednak nie są gotowe do publikacji.
Adnotacje tekstowe i gramatyczne
Badacze i lingwiści przestrzegają określonych wytycznych podczas dodawania adnotacji do korpusu, który można znaleźć tutaj , w International Corpus of English Manuals and Documentation. Trzy poziomy adnotacji to znaczniki tekstu, tagowanie klas słów, analiza składniowa.
Oznaczenia tekstowe
Oryginalne znaczniki i układ, takie jak parsowanie zdań i akapitów, są zachowywane, a specjalne znaczniki wskazują, że są oryginalne. Dane mówione są transkrybowane ortograficznie, ze wskaźnikami wahań, falstartów i przerw.
Tagowanie klas słów
Klasy słów, zwane także częściami mowy , to kategorie gramatyczne słów oparte na ich funkcji w zdaniu.
Teksty brytyjskie są automatycznie oznaczane pod kątem klas słownych przez tagger ICE, opracowany na University College London, który wykorzystuje obszerną gramatykę języka angielskiego.
Wszystkie inne języki są oznaczane automatycznie przy użyciu PENN Treebank i zestawu znaczników CLAWS. Chociaż tagi nie są korygowane ręcznie, są regularnie sprawdzane pod kątem jakości.
Analiza składniowa
Zdania są analizowane automatycznie iw razie potrzeby ręcznie poprawiane za pomocą ICECUP, edytora drzewa składni stworzonego specjalnie dla korpusu.
Analiza zależności jest również wykonywana automatycznie za pomocą narzędzia Dependency Parser Pro3GreS. Wyniki nie są weryfikowane ręcznie.
Analiza pragmatyczna
Irlandia jest obecnie jedynym krajem uczestniczącym, który umieszcza pragmatyczne adnotacje w swoich danych.
Projekt Korpusu
Poniżej znajdują się podsekcje ICE, z liczbą korpusów dla każdej kategorii i podkategorii w nawiasach.
Dialogi (180) | Prywatny (100) | Rozmowy twarzą w twarz (90) Rozmowy telefoniczne (10) |
Publiczne (80) | Lekcje w klasie (20) Transmitowane dyskusje (20) Transmitowane wywiady (10) Debaty parlamentarne (10) Prawnicze przesłuchania krzyżowe (10) Transakcje biznesowe (10) |
|
Monologi (120) | Nieskryptowane (70) | Spontaniczne komentarze (20) Nieskryptowane przemówienia (30) Demonstracje (10) Prezentacje prawne (10) |
Skrypty (50) | Wiadomości radiowe (20) Rozmowy z transmisją (20) Rozmowy bez transmisji (10) |
Niedrukowane (50) | Pisanie uczniów (20) | Eseje studenckie (10) Skrypty egzaminacyjne (10) |
Litery (30) | Listy społeczne (15) Listy biznesowe (15) |
|
Drukowane (150) | Pisanie akademickie (40) | Nauki humanistyczne (10) Nauki społeczne (10) Nauki przyrodnicze (10) Technologia (10) |
Popularne teksty (40) | Nauki humanistyczne (10) Nauki społeczne (10) Nauki przyrodnicze (10) Technologia (10) |
|
Reportaż (20) | Doniesienia prasowe (20) | |
Pisanie instruktażowe (20) | Pisanie administracyjne (10) Umiejętności/hobby (10) |
|
Przekonujące pisanie (10) | Artykuły prasowe (10) | |
Kreatywne pisanie (20) | Powieści i opowiadania (20) |
Publikacje
Istnieje wiele książek opublikowanych na temat Międzynarodowego Korpusu Języka Angielskiego, a także książek opartych częściowo na korpusach.
- English in the Caribbean: Variation, Style and Standards in Jamaica and Trinidad (2014) autorstwa Dagmar Deuber
- The Present Perfect in World Englishes: Wykres jedności i różnorodności (2014) autorstwa Valentina Wernera
- Mapping Unity and Diversity Worldwide: Corpus-based Studies of New Englishes (2012) autorstwa Marianne Hundt i Ulrike Gut
- The Syntax of Spoken Indian English (2012) autorstwa Claudii Lange
- Oxford Modern English Grammar (2011) autorstwa Basa Aartsa
- Adjunct Adverbials in English (2010) autorstwa Hilde Hasselgård
- Dziennik ICAME nr 34 (2010)
- Wprowadzenie do gramatyki języka angielskiego (2009) autorstwa Sidneya Greenbauma i Geralda Nelsona
- Tworzenie słów w nowych językach angielskich: analiza korpusowa (2008) autorstwa Thomasa Biermeiera
- Wydanie specjalne World Englishes , tom 23, numer 2 (2004)
- Exploring Natural Language: Praca z brytyjskim komponentem International Corpus of English (2002) autorstwa Geralda Nelsona, Seana Wallisa i Basa Aartsa
- Porównanie języka angielskiego na całym świecie: The International Corpus of English (1996) autorstwa Sidneya Greenbauma
- Oxford English Grammar (1996) autorstwa Sidneya Greenbauma
Uczestnicy
Aktualna lista krajów uczestniczących to (*= dostępne):
- Australia
- Kamerun
- Kanada*
- Afryka Wschodnia (Kenia, Malawi, Tanzania)*
- Fidżi
- Ghana
- Wielka Brytania* (przeanalizowana)
- Hongkong*
- Indie*
- Irlandia*
- Jamajka*
- Malta
- Malezja
- Nowa Zelandia*
- Nigeria* (oznaczone)
- Pakistan
- Filipiny*
- Sierra Leone
- Singapur*
- Afryka Południowa
- Sri Lanka
- Trynidad i Tobago
- USA*