Projekt Lemur

Projekt Lemur to efekt współpracy Centrum Inteligentnego Wyszukiwania Informacji na Uniwersytecie Massachusetts Amherst i Instytutu Technologii Językowych na Uniwersytecie Carnegie Mellon . Projekt Lemur opracowuje wyszukiwarki, paski narzędzi przeglądarki, narzędzia do analizy tekstu i zasoby danych, które wspierają badania i rozwój oprogramowania do wyszukiwania informacji i eksploracji tekstu. Projekt jest najbardziej znany ze swoich wyszukiwarek Indri i Galago, zestawów danych ClueWeb09 i ClueWeb12 oraz biblioteki RankLib do nauki rankingu. Oprogramowanie i zbiory danych są szeroko stosowane w zastosowaniach naukowych i badawczych, a także w niektórych zastosowaniach komercyjnych.

Filozofia rozwoju oprogramowania Lemur Project kładzie nacisk na najnowocześniejszą dokładność, elastyczność i wydajność. Na przykład wyszukiwarka Indri zapewnia dokładne wyszukiwanie dużych zbiorów tekstowych „od razu po wyjęciu z pudełka”, a dane są przechowywane w przystępny sposób, aby wspierać rozwój nowych strategii wyszukiwania. Oprogramowanie z projektu Lemur jest rozpowszechniane na zasadach licencji open source, które zapewniają elastyczność naukowcom i programistom.

Języki programowania użyte do stworzenia Lemura to C , C++ i Java , a wraz z plikami źródłowymi i instrukcjami kompilacji. Dostarczony kod źródłowy może być modyfikowany w celu tworzenia nowych bibliotek. Jest kompatybilny z różnymi systemami operacyjnymi, w tym Linux i Windows.

Cechy

Lemur obsługuje następujące funkcje:

Indeksowanie:
- Tekst w języku angielskim, chińskim i arabskim
- Pochodzenie słowa
- Zatrzymaj słowa
- Tokenizacja
- Indeksowanie pasażowe i przyrostowe
Wyszukiwanie:
- Wyszukiwanie ad hoc ( TF-IDF i InQuery)
- Przejście i wyszukiwanie międzyjęzykowe
- Modelowanie języka
  - Aktualizacja modelu zapytań
  - Dwustopniowe wygładzanie
- Informacje zwrotne dotyczące trafności
- Strukturalny język zapytań
- Dopasowywanie terminów wieloznacznych
Rozproszona podczerwień:
- Próbkowanie oparte na zapytaniach
- Ranking oparty na bazie danych (CORI)
- Łączenie wyników
Grupowanie dokumentów
Podsumowanie
Proste przetwarzanie tekstu

składniki

Projekt Lemur składa się z następujących elementów:

Indri wyszukiwarka w C++
Ramy badawcze wyszukiwarki Galago w Javie
RankLib biblioteka ucząca się rangować
Aplikacja do eksploracji danych Sifaka
Zestawy danych ClueWeb09 i ClueWeb12
Pasek narzędzi dziennika zapytań

Ostatnia wersja

Aktualizacje komponentów projektu Lemur są dokonywane dwa razy w roku, w czerwcu i grudniu. Najnowsza wersja wyszukiwarki Indri to 5.17. Najnowsza wersja wyszukiwarki Galago to wersja 3.18. Najnowsza wersja biblioteki uczącej RankLib to 2.14. Najnowsza wersja aplikacji do eksploracji danych Sifaka to 1.8.

Indri Wyszukiwarka

Wyszukiwarka Indri jest jednym z komponentów opracowanych przez Lemur Project. Jest to oprogramowanie typu open source. Język zapytań używany w Indri umożliwia naukowcom indeksowanie danych lub struktury dokumentów przy użyciu prostych instrukcji wiersza poleceń. Indri oferuje elastyczność w zakresie dostosowania do różnych aktualnych zastosowań. Może być również dystrybuowany w klastrze węzłów w celu uzyskania wysokiej wydajności. Wyszukiwarka Indri może obsługiwać duże zbiory danych i może rozumieć różne formaty danych, takie jak HTML i XML .

Indri API obsługuje różne języki programowania i skryptów, takie jak C++, Java , C# i PHP .

Funkcje wyszukiwarki Indri

Potrafi korzystać z wielu reprezentacji dokumentów
Jawne ważenie terminów
Solidny język zapytań
Formalnie uzasadnione
Wysoce skuteczny
Można skutecznie wdrożyć

Zobacz też

Lista bibliotek wyszukiwania informacji

Linki zewnętrzne

Witryna projektu Lemur