Jednojęzyczny korpus Teheranu

Tehran Monolingual Corpus (TMC) to jednojęzyczny korpus perski na dużą skalę . TMC nadaje się do modelowania języka i odpowiednich obszarów badawczych w przetwarzaniu języka naturalnego .

Korpus pochodzi ze strony internetowej agencji informacyjnej Hamshahri Corpus i ISNA . Jakość korpusu Hamshahri jest poprawiana do celów modelowania języka dzięki serii tokenizacji i sprawdzania pisowni.

TMC zawiera ponad 250 milionów słów. Całkowita liczba unikalnych słów (z częstotliwością dwóch lub więcej) korpusu wynosi około 300 tysięcy, co jest stosunkowo dobrym wynikiem dla języka o dużej fleksji, jakim jest perski.

TMC jest tworzony przez Laboratorium Przetwarzania Języka Naturalnego Uniwersytetu w Teheranie . Korpus jest udostępniany bezpłatnie do celów badawczych, po uzyskaniu zgody agregatora korpusów.

Zobacz też

Linki zewnętrzne