Ogólny internetowy korpus języka rosyjskiego

Ogólny internetowy korpus języka rosyjskiego
Rodzaj witryny
projekt edukacyjny/naukowy
Dostępne w Język rosyjski
Stworzone przez Vladimir Selegey, Vladimir Belikov, Serge Sharoff
Adres URL www.webcorpora.ru / en _
Handlowy NIE
Rejestracja potrzebne; podane na żądanie
Wystrzelony 2012
Aktualny stan Testowanie beta

General Internet Corpus of Russian (GICR) to zbiór rosyjskich tekstów internetowych, który od 2013 r. jest dostępny na żądanie za pośrednictwem interfejsu zapytań online. Korpus zawiera bogate materiały tekstowe z blogosfery, sieci społecznościowych, głównych źródeł wiadomości i czasopism literackich.

Cele projektu

Projekt ma status projektu edukacyjno-naukowego, a wiele zadań lingwistyki komputerowej jest rozwiązywanych przez niezależnych badaczy i grupy badawcze na podstawie materiałów uzyskanych przez GICR. Podczas gdy inne projekty korpusów języka rosyjskiego koncentrują się na fikcji i tekstach redagowanych, General Internet Corpus zapewnia lingwistom możliwość nauczenia się języka w jego obecnej postaci, ze wszystkimi slangiem i regionalnymi osobliwościami.

Corpus daje możliwość prowadzenia badań m.in

  • Badania lingwistyczne o szerokim zakresie: badania dialektologiczne, badanie rozmieszczenia wyrazów, badanie języka portali społecznościowych, badanie wpływu płci, wieku i innych czynników na język, częstotliwość występowania słów, ustalone wyrażenia i różne konstrukcje, stylistyczne cechy tekstów różnych segmentów Internetu itp.
  • Analiza mediów społecznościowych
  • Uczenie maszynowe oparte na korpusie do oceny automatycznego tagowania

W różnych okresach studenci, absolwenci i pracownicy MSU, MIPT, Rosyjskiego Państwowego Uniwersytetu Humanitarnego, Nowosybirskiego Uniwersytetu Państwowego, Wyższej Szkoły Ekonomicznej Rosyjskiej Akademii Nauk, SFU, CSU, prowadzili prace studenckie i niezależne badania na materiale projektowym SGMP, IAAS MSU.

Liderzy projektów naukowych:

  • Belikov V. - RSUH, Moskwa, Rosja
  • Selegey V. - RSUH, ABBYY, Moskwa, Rosja
  • Sharoff S. - RSUH, Moskwa, Rosja; Uniwersytet w Leeds, Wielka Brytania

Organizacje zaangażowane we wsparcie GICR:

Wielkość i zawartość korpusu

Rozmiar korpusu na lato 2016 to 19,8 miliarda tokenów, z czego 49% pochodzi z VKontakte , 40% z LiveJournal , kolejne 4% z Mail.ru Blogs and News, a 2% z Russian Magazine Hall . Źródła zebrane w segmencie wiadomości to: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Teksty opatrzone są metaznacznikami (według daty powstania tekstu, płci, miejsca i roku urodzenia autora, gatunku internetowego itp.); wszystkie teksty są wyposażone w automatyczne tagowanie morfologiczne i lematyzację. Większość zebranych tekstów pochodzi z lat 2013–2014, chociaż w niektórych segmentach, na przykład w Russian Magazine Hall, niektóre teksty są gromadzone od 1994 roku.

Segment Korpusu Słowa, miliony Dokumenty
Blogi Mail.Ru 707 9882120
VKontakte 9820 193770717
Dziennik na żywo 8110 73229158
Rosyjska sala magazynowa 313 56547
Nowości (ria, regnum, lentaru, rosbalt) 851 2964897
Wszystkie korpusy 19801 279903439

GICR jest obecnie jednym z nielicznych megakorporowych projektów, co oznacza, że ​​jego dostępny rozmiar sięga kilku miliardów słów.

Ciało Języki Dostęp Strona Rozmiar Udogodnienia
COW: bezpłatny, duży korpus internetowy w językach europejskich Angielski, francuski, niemiecki, hiszpański, szwedzki, holenderski bezpłatny, po rejestracji dostęp próbny jest możliwy bez rejestracji [1] 30 miliardów słów Format KWIC, znakowanie morfologiczne, wyszukiwanie CQP, znaczniki i wyszukiwanie według daty, adresu URL, kraju, miasta itp.
Szkic silnika angielski, francuski, niemiecki, włoski, arabski, rosyjski, hiszpański, portugalski, koreański, japoński, chiński + więcej języków za dopłatą Dostęp płatny, dostęp próbny jest możliwy po rejestracji [2] 86 miliardów słów konkordancje, gramatyka szkiców, tezaurus, KWIC, znakowanie morfologiczne, wyszukiwanie CQP
Aranea Corpora Angielski, rosyjski, fiński, francuski, niemiecki, węgierski, hiszpański, włoski, holenderski, polski, słowacki Bezpłatny, po rejestracji, dostęp próbny jest możliwy bez rejestracji [3] 14 miliardów słów noSketch Engine, konkordancje, gramatyka szkiców, tezaurus, KWIC, tagowanie morfologiczne, wyszukiwanie CQP, porównywalne wyniki zapytań w różnych językach
GICR (Ogólny internetowy korpus języka rosyjskiego) Rosyjski Bezpłatnie, rejestracja na żądanie [4] 20 miliardów słów konkordancje, tezaurus, KWIC, tagowanie morfologiczne, wyszukiwanie CQP, znaczniki i wyszukiwanie według daty, kraju, miasta, segmentu internetu, płci, roku i miejsca urodzenia autora, „poczta z zapytaniem” dla użytkowników.
GloWbE (Korpus globalnego internetowego języka angielskiego) Angielski, specyfikacja dla 20 krajów Bez rejestracji [5] 1,9 miliarda słów KWIC, konkordancje, kolokacje, wyniki porównywalne według dialektów, wyszukiwanie CQP, korpus można pobrać

Dostęp

Obecnie interfejs GICR jest w fazie beta, więc dostęp do wyszukiwania w korpusach jest zapewniony i bezpłatny, ale jest dostępny dla badaczy na żądanie.

Zobacz też

Dalsza lektura

  1. Belikov V., Kopylov N., Piperski A., Selegey V., Sharoff S., (2013), Duże i różnorodne jest piękne: duży zbiór rosyjskiego do badania zmienności językowej. W sieci jako Corpus Workshop (WAC-8).
  2. Lagutin MB, Katinskaya AY, Selegey VP, Sharoff S., Sorokin AA (2015) Automatic Classification of Web Texts using Functional Text Dimensions. W dialogu, Rosyjska Międzynarodowa Konferencja Lingwistyki Komputerowej, Bekasowo
  3. Katinskaya A., Sharoff S. (2015) Stosowanie analizy wielowymiarowej do rosyjskiego korpusu internetowego: poszukiwanie dowodów na gatunki , w Proc. Warsztatów Bałtosłowiańskiego Przetwarzania Języka Naturalnego związanych z Międzynarodową Konferencją RANLP, Hissar, Bułgaria.

Linki zewnętrzne

Oficjalna strona GICR