Korpus Hamshahri

Logo Korpusu Hamshahri

Hamshahri Corpus ( perski : پیکره همشهری ) to spory perski korpus oparty na irańskiej gazecie Hamshahri , jednej z pierwszych gazet internetowych w języku perskim w Iranie. Został on początkowo zebrany i opracowany przez Ehsana Darrudiego z Grupy DBRG Uniwersytetu w Teheranie . Później zespół kierowany przez Ale Ahmada oparł się na tym korpusie i stworzył pierwszy zbiór tekstów perskich odpowiedni do wyszukiwania informacji .

Ten korpus został utworzony przez indeksowanie artykułów z wiadomościami online ze strony internetowej Hamshahri i przetwarzanie stron HTML w celu stworzenia standardowego korpusu tekstowego do nowoczesnych eksperymentów wyszukiwania informacji.

Wersja 1.0

Zbiór zawiera ponad 160 000 artykułów obejmujących następujące kategorie tematyczne: polityka, wiadomości miejskie, ekonomia, raporty, artykuły redakcyjne, literatura, nauka, społeczeństwo, wiadomości zagraniczne, sport itp. Rozmiar dokumentów waha się od krótkich wiadomości (poniżej 1 KB ) do dość długich artykułów (np. 140 KB) o średniej wielkości 1,8 KB.

Korpus jest dostępny do pobrania w kilku formatach:

Oznaczony tekst: 560 MB
W SQL Server 2000 Tabele: 712 MB

Wersja 2.0

Drugie wydanie Korpusu Hamshahri zostało uruchomione 20 października 2008 r. Oferuje kilka nowych funkcji i ulepszeń:

Więcej wiadomości: 323 616 historii tekstowych w 3206 plikach XML (jeden plik na każdy dzień)
Zwiększony przedział czasowy: od 22 czerwca 1996 do 13 maja 2007
Większy rozmiar: 1,42 GB bez kompresji
Standardowy kontener: Unicode XML
Dołączone obrazy: obrazy zostały wyodrębnione z wiadomości i zachowane (dostępne w dodatkowym pakiecie), dzięki czemu nadają się do zadań pobierania obrazów.
Wiadomości podzielone na kategorie: wiadomości zostały skategoryzowane półautomatycznie (odpowiednie do kategoryzacji tekstu i zadań klasyfikowania ).

Korpus jest dostępny do pobrania w formacie XML.

Zobacz też

Korpus Bijankhana

Perski Today Corpus
Jednojęzyczny korpus Teheranu

Linki zewnętrzne

Strona główna Hamshahri Corpus zarchiwizowana 14.05.2017 w Wayback Machine
Strona główna kolekcji irBlogs

Lingwistyka korpusowa
Korpusy tekstów, j. ang	Amerykański Korpus Narodowy banku języka angielskiego Bergen Corpus of London Teenage Language Brytyjski Korpus Narodowy Brązowy korpus Korpus Buckeye'a Cambridge English Corpus Korpus współczesnego amerykańskiego angielskiego Korpus Enronu Dziesięć Dziesięć Międzynarodowy korpus języka angielskiego Korpus Lancaster-Oslo-Bergen Oxford English Corpus PropBank Korpus mówionego języka angielskiego CZAS CzasownikNet Wellington Corpus mówionego języka angielskiego w Nowej Zelandii
Korpusy tekstowe, inne niż angielskie	Korpus Bijankhana DZIECI CorCenCC Narodowy Korpus Współczesnego Walijskiego Korpus języka chorwackiego Chorwacki Korpus Narodowy Czeski Korpus Narodowy Korpus Europarl Niemiecki korpus referencyjny Korpus Hamshahri Narodowy Korpus Języka Polskiego Projekt korpusu tekstów neoasyryjskich Perski korpus mowy Koraniczny korpus arabski Rosyjski Korpus Narodowy Szkocki korpus tekstów i mowy Słoweński Korpus Narodowy TalkBank Tatoeba Jednojęzyczny korpus Teheranu Tekstaro de Esperanto Rodzina TenTen Corpus Tezaurus Linguae Graecae
Organizacje	Konsorcjum BNC KOBUDOWAĆ Szkic silnika