Jednojęzyczny korpus Teheranu

Tehran Monolingual Corpus (TMC) to jednojęzyczny korpus perski na dużą skalę . TMC nadaje się do modelowania języka i odpowiednich obszarów badawczych w przetwarzaniu języka naturalnego .

Korpus pochodzi ze strony internetowej agencji informacyjnej Hamshahri Corpus i ISNA . Jakość korpusu Hamshahri jest poprawiana do celów modelowania języka dzięki serii tokenizacji i sprawdzania pisowni.

TMC zawiera ponad 250 milionów słów. Całkowita liczba unikalnych słów (z częstotliwością dwóch lub więcej) korpusu wynosi około 300 tysięcy, co jest stosunkowo dobrym wynikiem dla języka o dużej fleksji, jakim jest perski.

TMC jest tworzony przez Laboratorium Przetwarzania Języka Naturalnego Uniwersytetu w Teheranie . Korpus jest udostępniany bezpłatnie do celów badawczych, po uzyskaniu zgody agregatora korpusów.

Zobacz też

Linki zewnętrzne

Strona opisu TMC

Lingwistyka korpusowa
Korpusy tekstów, j. ang	Amerykański Korpus Narodowy banku języka angielskiego Bergen Corpus of London Teenage Language Brytyjski Korpus Narodowy Brązowy korpus Korpus Buckeye'a Cambridge English Corpus Korpus współczesnego amerykańskiego angielskiego Korpus Enronu Dziesięć Dziesięć Międzynarodowy korpus języka angielskiego Korpus Lancaster-Oslo-Bergen Oxford English Corpus PropBank Korpus mówionego języka angielskiego CZAS CzasownikNet Wellington Corpus mówionego języka angielskiego w Nowej Zelandii
Korpusy tekstowe, inne niż angielskie	Korpus Bijankhana DZIECI CorCenCC Narodowy Korpus Współczesnego Walijskiego Korpus języka chorwackiego Chorwacki Korpus Narodowy Czeski Korpus Narodowy Korpus Europarl Niemiecki korpus referencyjny Korpus Hamshahri Narodowy Korpus Języka Polskiego Projekt korpusu tekstów neoasyryjskich Perski korpus mowy Koraniczny korpus arabski Rosyjski Korpus Narodowy Szkocki korpus tekstów i mowy Słoweński Korpus Narodowy TalkBank Tatoeba Jednojęzyczny korpus Teheranu Tekstaro de Esperanto Rodzina TenTen Corpus Tezaurus Linguae Graecae
Organizacje	Konsorcjum BNC KOBUDOWAĆ Szkic silnika