Korpus Hamshahri
Hamshahri Corpus ( perski : پیکره همشهری ) to spory perski korpus oparty na irańskiej gazecie Hamshahri , jednej z pierwszych gazet internetowych w języku perskim w Iranie. Został on początkowo zebrany i opracowany przez Ehsana Darrudiego z Grupy DBRG Uniwersytetu w Teheranie . Później zespół kierowany przez Ale Ahmada oparł się na tym korpusie i stworzył pierwszy zbiór tekstów perskich odpowiedni do wyszukiwania informacji .
Ten korpus został utworzony przez indeksowanie artykułów z wiadomościami online ze strony internetowej Hamshahri i przetwarzanie stron HTML w celu stworzenia standardowego korpusu tekstowego do nowoczesnych eksperymentów wyszukiwania informacji.
Wersja 1.0
Zbiór zawiera ponad 160 000 artykułów obejmujących następujące kategorie tematyczne: polityka, wiadomości miejskie, ekonomia, raporty, artykuły redakcyjne, literatura, nauka, społeczeństwo, wiadomości zagraniczne, sport itp. Rozmiar dokumentów waha się od krótkich wiadomości (poniżej 1 KB ) do dość długich artykułów (np. 140 KB) o średniej wielkości 1,8 KB.
Korpus jest dostępny do pobrania w kilku formatach:
- Oznaczony tekst: 560 MB
- W SQL Server 2000 Tabele: 712 MB
Wersja 2.0
Drugie wydanie Korpusu Hamshahri zostało uruchomione 20 października 2008 r. Oferuje kilka nowych funkcji i ulepszeń:
- Więcej wiadomości: 323 616 historii tekstowych w 3206 plikach XML (jeden plik na każdy dzień)
- Zwiększony przedział czasowy: od 22 czerwca 1996 do 13 maja 2007
- Większy rozmiar: 1,42 GB bez kompresji
- Standardowy kontener: Unicode XML
- Dołączone obrazy: obrazy zostały wyodrębnione z wiadomości i zachowane (dostępne w dodatkowym pakiecie), dzięki czemu nadają się do zadań pobierania obrazów.
- Wiadomości podzielone na kategorie: wiadomości zostały skategoryzowane półautomatycznie (odpowiednie do kategoryzacji tekstu i zadań klasyfikowania ).
Korpus jest dostępny do pobrania w formacie XML.
Zobacz też
- Perski Today Corpus
- Jednojęzyczny korpus Teheranu
Linki zewnętrzne
- Strona główna Hamshahri Corpus zarchiwizowana 14.05.2017 w Wayback Machine
- Strona główna kolekcji irBlogs