Ogólny internetowy korpus języka rosyjskiego
Rodzaj witryny |
projekt edukacyjny/naukowy |
---|---|
Dostępne w | Język rosyjski |
Stworzone przez | Vladimir Selegey, Vladimir Belikov, Serge Sharoff |
Adres URL | |
Handlowy | NIE |
Rejestracja | potrzebne; podane na żądanie |
Wystrzelony | 2012 |
Aktualny stan | Testowanie beta |
General Internet Corpus of Russian (GICR) to zbiór rosyjskich tekstów internetowych, który od 2013 r. jest dostępny na żądanie za pośrednictwem interfejsu zapytań online. Korpus zawiera bogate materiały tekstowe z blogosfery, sieci społecznościowych, głównych źródeł wiadomości i czasopism literackich.
Cele projektu
Projekt ma status projektu edukacyjno-naukowego, a wiele zadań lingwistyki komputerowej jest rozwiązywanych przez niezależnych badaczy i grupy badawcze na podstawie materiałów uzyskanych przez GICR. Podczas gdy inne projekty korpusów języka rosyjskiego koncentrują się na fikcji i tekstach redagowanych, General Internet Corpus zapewnia lingwistom możliwość nauczenia się języka w jego obecnej postaci, ze wszystkimi slangiem i regionalnymi osobliwościami.
Corpus daje możliwość prowadzenia badań m.in
- Badania lingwistyczne o szerokim zakresie: badania dialektologiczne, badanie rozmieszczenia wyrazów, badanie języka portali społecznościowych, badanie wpływu płci, wieku i innych czynników na język, częstotliwość występowania słów, ustalone wyrażenia i różne konstrukcje, stylistyczne cechy tekstów różnych segmentów Internetu itp.
- Analiza mediów społecznościowych
- Uczenie maszynowe oparte na korpusie do oceny automatycznego tagowania
W różnych okresach studenci, absolwenci i pracownicy MSU, MIPT, Rosyjskiego Państwowego Uniwersytetu Humanitarnego, Nowosybirskiego Uniwersytetu Państwowego, Wyższej Szkoły Ekonomicznej Rosyjskiej Akademii Nauk, SFU, CSU, prowadzili prace studenckie i niezależne badania na materiale projektowym SGMP, IAAS MSU.
Liderzy projektów naukowych:
- Belikov V. - RSUH, Moskwa, Rosja
- Selegey V. - RSUH, ABBYY, Moskwa, Rosja
- Sharoff S. - RSUH, Moskwa, Rosja; Uniwersytet w Leeds, Wielka Brytania
Organizacje zaangażowane we wsparcie GICR:
- Rosyjski Państwowy Uniwersytet Humanistyczny
- Firma ABBYY
- Moskiewski Instytut Fizyki i Technologii
- Skolkovo Instytut Nauki i Technologii
Wielkość i zawartość korpusu
Rozmiar korpusu na lato 2016 to 19,8 miliarda tokenów, z czego 49% pochodzi z VKontakte , 40% z LiveJournal , kolejne 4% z Mail.ru Blogs and News, a 2% z Russian Magazine Hall . Źródła zebrane w segmencie wiadomości to: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Teksty opatrzone są metaznacznikami (według daty powstania tekstu, płci, miejsca i roku urodzenia autora, gatunku internetowego itp.); wszystkie teksty są wyposażone w automatyczne tagowanie morfologiczne i lematyzację. Większość zebranych tekstów pochodzi z lat 2013–2014, chociaż w niektórych segmentach, na przykład w Russian Magazine Hall, niektóre teksty są gromadzone od 1994 roku.
Segment Korpusu | Słowa, miliony | Dokumenty |
---|---|---|
Blogi Mail.Ru | 707 | 9882120 |
VKontakte | 9820 | 193770717 |
Dziennik na żywo | 8110 | 73229158 |
Rosyjska sala magazynowa | 313 | 56547 |
Nowości (ria, regnum, lentaru, rosbalt) | 851 | 2964897 |
Wszystkie korpusy | 19801 | 279903439 |
GICR jest obecnie jednym z nielicznych megakorporowych projektów, co oznacza, że jego dostępny rozmiar sięga kilku miliardów słów.
Ciało | Języki | Dostęp | Strona | Rozmiar | Udogodnienia |
---|---|---|---|---|---|
COW: bezpłatny, duży korpus internetowy w językach europejskich | Angielski, francuski, niemiecki, hiszpański, szwedzki, holenderski | bezpłatny, po rejestracji dostęp próbny jest możliwy bez rejestracji | [1] | 30 miliardów słów | Format KWIC, znakowanie morfologiczne, wyszukiwanie CQP, znaczniki i wyszukiwanie według daty, adresu URL, kraju, miasta itp. |
Szkic silnika | angielski, francuski, niemiecki, włoski, arabski, rosyjski, hiszpański, portugalski, koreański, japoński, chiński + więcej języków za dopłatą | Dostęp płatny, dostęp próbny jest możliwy po rejestracji | [2] | 86 miliardów słów | konkordancje, gramatyka szkiców, tezaurus, KWIC, znakowanie morfologiczne, wyszukiwanie CQP |
Aranea Corpora | Angielski, rosyjski, fiński, francuski, niemiecki, węgierski, hiszpański, włoski, holenderski, polski, słowacki | Bezpłatny, po rejestracji, dostęp próbny jest możliwy bez rejestracji | [3] | 14 miliardów słów | noSketch Engine, konkordancje, gramatyka szkiców, tezaurus, KWIC, tagowanie morfologiczne, wyszukiwanie CQP, porównywalne wyniki zapytań w różnych językach |
GICR (Ogólny internetowy korpus języka rosyjskiego) | Rosyjski | Bezpłatnie, rejestracja na żądanie | [4] | 20 miliardów słów | konkordancje, tezaurus, KWIC, tagowanie morfologiczne, wyszukiwanie CQP, znaczniki i wyszukiwanie według daty, kraju, miasta, segmentu internetu, płci, roku i miejsca urodzenia autora, „poczta z zapytaniem” dla użytkowników. |
GloWbE (Korpus globalnego internetowego języka angielskiego) | Angielski, specyfikacja dla 20 krajów | Bez rejestracji | [5] | 1,9 miliarda słów | KWIC, konkordancje, kolokacje, wyniki porównywalne według dialektów, wyszukiwanie CQP, korpus można pobrać |
Dostęp
Obecnie interfejs GICR jest w fazie beta, więc dostęp do wyszukiwania w korpusach jest zapewniony i bezpłatny, ale jest dostępny dla badaczy na żądanie.
Zobacz też
Dalsza lektura
- Belikov V., Kopylov N., Piperski A., Selegey V., Sharoff S., (2013), Duże i różnorodne jest piękne: duży zbiór rosyjskiego do badania zmienności językowej. W sieci jako Corpus Workshop (WAC-8).
- Lagutin MB, Katinskaya AY, Selegey VP, Sharoff S., Sorokin AA (2015) Automatic Classification of Web Texts using Functional Text Dimensions. W dialogu, Rosyjska Międzynarodowa Konferencja Lingwistyki Komputerowej, Bekasowo
- Katinskaya A., Sharoff S. (2015) Stosowanie analizy wielowymiarowej do rosyjskiego korpusu internetowego: poszukiwanie dowodów na gatunki , w Proc. Warsztatów Bałtosłowiańskiego Przetwarzania Języka Naturalnego związanych z Międzynarodową Konferencją RANLP, Hissar, Bułgaria.