Ogólny internetowy korpus języka rosyjskiego

**Ogólny internetowy korpus języka rosyjskiego**
Rodzaj witryny	projekt edukacyjny/naukowy
Dostępne w	Język rosyjski
Stworzone przez	Vladimir Selegey, Vladimir Belikov, Serge Sharoff
Adres URL	www.webcorpora.ru / en _
Handlowy	NIE
Rejestracja	potrzebne; podane na żądanie
Wystrzelony	2012
Aktualny stan	Testowanie beta

General Internet Corpus of Russian (GICR) to zbiór rosyjskich tekstów internetowych, który od 2013 r. jest dostępny na żądanie za pośrednictwem interfejsu zapytań online. Korpus zawiera bogate materiały tekstowe z blogosfery, sieci społecznościowych, głównych źródeł wiadomości i czasopism literackich.

Cele projektu

Projekt ma status projektu edukacyjno-naukowego, a wiele zadań lingwistyki komputerowej jest rozwiązywanych przez niezależnych badaczy i grupy badawcze na podstawie materiałów uzyskanych przez GICR. Podczas gdy inne projekty korpusów języka rosyjskiego koncentrują się na fikcji i tekstach redagowanych, General Internet Corpus zapewnia lingwistom możliwość nauczenia się języka w jego obecnej postaci, ze wszystkimi slangiem i regionalnymi osobliwościami.

Corpus daje możliwość prowadzenia badań m.in

Badania lingwistyczne o szerokim zakresie: badania dialektologiczne, badanie rozmieszczenia wyrazów, badanie języka portali społecznościowych, badanie wpływu płci, wieku i innych czynników na język, częstotliwość występowania słów, ustalone wyrażenia i różne konstrukcje, stylistyczne cechy tekstów różnych segmentów Internetu itp.
Analiza mediów społecznościowych
Uczenie maszynowe oparte na korpusie do oceny automatycznego tagowania

W różnych okresach studenci, absolwenci i pracownicy MSU, MIPT, Rosyjskiego Państwowego Uniwersytetu Humanitarnego, Nowosybirskiego Uniwersytetu Państwowego, Wyższej Szkoły Ekonomicznej Rosyjskiej Akademii Nauk, SFU, CSU, prowadzili prace studenckie i niezależne badania na materiale projektowym SGMP, IAAS MSU.

Liderzy projektów naukowych:

Belikov V. - RSUH, Moskwa, Rosja
Selegey V. - RSUH, ABBYY, Moskwa, Rosja
Sharoff S. - RSUH, Moskwa, Rosja; Uniwersytet w Leeds, Wielka Brytania

Organizacje zaangażowane we wsparcie GICR:

Rosyjski Państwowy Uniwersytet Humanistyczny
Firma ABBYY
Moskiewski Instytut Fizyki i Technologii
Skolkovo Instytut Nauki i Technologii

Wielkość i zawartość korpusu

Rozmiar korpusu na lato 2016 to 19,8 miliarda tokenów, z czego 49% pochodzi z VKontakte , 40% z LiveJournal , kolejne 4% z Mail.ru Blogs and News, a 2% z Russian Magazine Hall . Źródła zebrane w segmencie wiadomości to: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Teksty opatrzone są metaznacznikami (według daty powstania tekstu, płci, miejsca i roku urodzenia autora, gatunku internetowego itp.); wszystkie teksty są wyposażone w automatyczne tagowanie morfologiczne i lematyzację. Większość zebranych tekstów pochodzi z lat 2013–2014, chociaż w niektórych segmentach, na przykład w Russian Magazine Hall, niektóre teksty są gromadzone od 1994 roku.

Segment Korpusu	Słowa, miliony	Dokumenty
Blogi Mail.Ru	707	9882120
VKontakte	9820	193770717
Dziennik na żywo	8110	73229158
Rosyjska sala magazynowa	313	56547
Nowości (ria, regnum, lentaru, rosbalt)	851	2964897
Wszystkie korpusy	19801	279903439

GICR jest obecnie jednym z nielicznych megakorporowych projektów, co oznacza, że jego dostępny rozmiar sięga kilku miliardów słów.

Ciało	Języki	Dostęp	Strona	Rozmiar	Udogodnienia
COW: bezpłatny, duży korpus internetowy w językach europejskich	Angielski, francuski, niemiecki, hiszpański, szwedzki, holenderski	bezpłatny, po rejestracji dostęp próbny jest możliwy bez rejestracji	[1]	30 miliardów słów	Format KWIC, znakowanie morfologiczne, wyszukiwanie CQP, znaczniki i wyszukiwanie według daty, adresu URL, kraju, miasta itp.
Szkic silnika	angielski, francuski, niemiecki, włoski, arabski, rosyjski, hiszpański, portugalski, koreański, japoński, chiński + więcej języków za dopłatą	Dostęp płatny, dostęp próbny jest możliwy po rejestracji	[2]	86 miliardów słów	konkordancje, gramatyka szkiców, tezaurus, KWIC, znakowanie morfologiczne, wyszukiwanie CQP
Aranea Corpora	Angielski, rosyjski, fiński, francuski, niemiecki, węgierski, hiszpański, włoski, holenderski, polski, słowacki	Bezpłatny, po rejestracji, dostęp próbny jest możliwy bez rejestracji	[3]	14 miliardów słów	noSketch Engine, konkordancje, gramatyka szkiców, tezaurus, KWIC, tagowanie morfologiczne, wyszukiwanie CQP, porównywalne wyniki zapytań w różnych językach
GICR (Ogólny internetowy korpus języka rosyjskiego)	Rosyjski	Bezpłatnie, rejestracja na żądanie	[4]	20 miliardów słów	konkordancje, tezaurus, KWIC, tagowanie morfologiczne, wyszukiwanie CQP, znaczniki i wyszukiwanie według daty, kraju, miasta, segmentu internetu, płci, roku i miejsca urodzenia autora, „poczta z zapytaniem” dla użytkowników.
GloWbE (Korpus globalnego internetowego języka angielskiego)	Angielski, specyfikacja dla 20 krajów	Bez rejestracji	[5]	1,9 miliarda słów	KWIC, konkordancje, kolokacje, wyniki porównywalne według dialektów, wyszukiwanie CQP, korpus można pobrać

Dostęp

Obecnie interfejs GICR jest w fazie beta, więc dostęp do wyszukiwania w korpusach jest zapewniony i bezpłatny, ale jest dostępny dla badaczy na żądanie.

Zobacz też

Dalsza lektura

Linki zewnętrzne

• Oficjalna strona GICR