Projekt Lemur
Projekt Lemur to efekt współpracy Centrum Inteligentnego Wyszukiwania Informacji na Uniwersytecie Massachusetts Amherst i Instytutu Technologii Językowych na Uniwersytecie Carnegie Mellon . Projekt Lemur opracowuje wyszukiwarki, paski narzędzi przeglądarki, narzędzia do analizy tekstu i zasoby danych, które wspierają badania i rozwój oprogramowania do wyszukiwania informacji i eksploracji tekstu. Projekt jest najbardziej znany ze swoich wyszukiwarek Indri i Galago, zestawów danych ClueWeb09 i ClueWeb12 oraz biblioteki RankLib do nauki rankingu. Oprogramowanie i zbiory danych są szeroko stosowane w zastosowaniach naukowych i badawczych, a także w niektórych zastosowaniach komercyjnych.
Filozofia rozwoju oprogramowania Lemur Project kładzie nacisk na najnowocześniejszą dokładność, elastyczność i wydajność. Na przykład wyszukiwarka Indri zapewnia dokładne wyszukiwanie dużych zbiorów tekstowych „od razu po wyjęciu z pudełka”, a dane są przechowywane w przystępny sposób, aby wspierać rozwój nowych strategii wyszukiwania. Oprogramowanie z projektu Lemur jest rozpowszechniane na zasadach licencji open source, które zapewniają elastyczność naukowcom i programistom.
Języki programowania użyte do stworzenia Lemura to C , C++ i Java , a wraz z plikami źródłowymi i instrukcjami kompilacji. Dostarczony kod źródłowy może być modyfikowany w celu tworzenia nowych bibliotek. Jest kompatybilny z różnymi systemami operacyjnymi, w tym Linux i Windows.
Cechy
Lemur obsługuje następujące funkcje:
- Indeksowanie:
- Tekst w języku angielskim, chińskim i arabskim
- Pochodzenie słowa
- Zatrzymaj słowa
- Tokenizacja
- Indeksowanie pasażowe i przyrostowe
- Wyszukiwanie:
- Wyszukiwanie ad hoc ( TF-IDF i InQuery)
- Przejście i wyszukiwanie międzyjęzykowe
- Modelowanie języka
- Aktualizacja modelu zapytań
- Dwustopniowe wygładzanie
- Informacje zwrotne dotyczące trafności
- Strukturalny język zapytań
- Dopasowywanie terminów wieloznacznych
- Rozproszona podczerwień:
- Próbkowanie oparte na zapytaniach
- Ranking oparty na bazie danych (CORI)
- Łączenie wyników
- Grupowanie dokumentów
- Podsumowanie
- Proste przetwarzanie tekstu
składniki
Projekt Lemur składa się z następujących elementów:
- Indri wyszukiwarka w C++
- Ramy badawcze wyszukiwarki Galago w Javie
- RankLib biblioteka ucząca się rangować
- Aplikacja do eksploracji danych Sifaka
- Zestawy danych ClueWeb09 i ClueWeb12
- Pasek narzędzi dziennika zapytań
Ostatnia wersja
Aktualizacje komponentów projektu Lemur są dokonywane dwa razy w roku, w czerwcu i grudniu. Najnowsza wersja wyszukiwarki Indri to 5.17. Najnowsza wersja wyszukiwarki Galago to wersja 3.18. Najnowsza wersja biblioteki uczącej RankLib to 2.14. Najnowsza wersja aplikacji do eksploracji danych Sifaka to 1.8.
Indri Wyszukiwarka
Wyszukiwarka Indri jest jednym z komponentów opracowanych przez Lemur Project. Jest to oprogramowanie typu open source. Język zapytań używany w Indri umożliwia naukowcom indeksowanie danych lub struktury dokumentów przy użyciu prostych instrukcji wiersza poleceń. Indri oferuje elastyczność w zakresie dostosowania do różnych aktualnych zastosowań. Może być również dystrybuowany w klastrze węzłów w celu uzyskania wysokiej wydajności. Wyszukiwarka Indri może obsługiwać duże zbiory danych i może rozumieć różne formaty danych, takie jak HTML i XML .
Indri API obsługuje różne języki programowania i skryptów, takie jak C++, Java , C# i PHP .
Funkcje wyszukiwarki Indri
- Potrafi korzystać z wielu reprezentacji dokumentów
- Jawne ważenie terminów
- Solidny język zapytań
- Formalnie uzasadnione
- Wysoce skuteczny
- Można skutecznie wdrożyć
Zobacz też
Linki zewnętrzne