Korpus Hamshahri

Logo Korpusu Hamshahri

Hamshahri Corpus ( perski : پیکره همشهری ) to spory perski korpus oparty na irańskiej gazecie Hamshahri , jednej z pierwszych gazet internetowych w języku perskim w Iranie. Został on początkowo zebrany i opracowany przez Ehsana Darrudiego z Grupy DBRG Uniwersytetu w Teheranie . Później zespół kierowany przez Ale Ahmada oparł się na tym korpusie i stworzył pierwszy zbiór tekstów perskich odpowiedni do wyszukiwania informacji .

Ten korpus został utworzony przez indeksowanie artykułów z wiadomościami online ze strony internetowej Hamshahri i przetwarzanie stron HTML w celu stworzenia standardowego korpusu tekstowego do nowoczesnych eksperymentów wyszukiwania informacji.

Wersja 1.0

Zbiór zawiera ponad 160 000 artykułów obejmujących następujące kategorie tematyczne: polityka, wiadomości miejskie, ekonomia, raporty, artykuły redakcyjne, literatura, nauka, społeczeństwo, wiadomości zagraniczne, sport itp. Rozmiar dokumentów waha się od krótkich wiadomości (poniżej 1 KB ) do dość długich artykułów (np. 140 KB) o średniej wielkości 1,8 KB.

Korpus jest dostępny do pobrania w kilku formatach:

  • Oznaczony tekst: 560 MB
  • W SQL Server 2000 Tabele: 712 MB

Wersja 2.0

Drugie wydanie Korpusu Hamshahri zostało uruchomione 20 października 2008 r. Oferuje kilka nowych funkcji i ulepszeń:

  • Więcej wiadomości: 323 616 historii tekstowych w 3206 plikach XML (jeden plik na każdy dzień)
  • Zwiększony przedział czasowy: od 22 czerwca 1996 do 13 maja 2007
  • Większy rozmiar: 1,42 GB bez kompresji
  • Standardowy kontener: Unicode XML
  • Dołączone obrazy: obrazy zostały wyodrębnione z wiadomości i zachowane (dostępne w dodatkowym pakiecie), dzięki czemu nadają się do zadań pobierania obrazów.
  • Wiadomości podzielone na kategorie: wiadomości zostały skategoryzowane półautomatycznie (odpowiednie do kategoryzacji tekstu i zadań klasyfikowania ).

Korpus jest dostępny do pobrania w formacie XML.

Zobacz też

Linki zewnętrzne