Narzędzie do wyszukiwania informacji

logo IRF

Information Retrieval Facility ( IRF ) , założona w 2006 roku i zlokalizowana w Wiedniu , Austria , była platformą badawczą służącą do nawiązywania kontaktów i współpracy dla profesjonalistów w dziedzinie wyszukiwania informacji . Zakończył działalność w 2012 roku.

IRF miał członków w następujących kategoriach:

Naukowcy zajmujący się wyszukiwaniem informacji (IR) lub pokrewnymi dziedzinami nauki
Specjaliści ds. zarządzania informacjami przemysłowymi/korporacyjnymi
Organy patentowe i instytucje rządowe
Studenci jednego z ww

Rada Naukowa

Maristella Agosti , profesor, Wydział Inżynierii Informatycznej Uniwersytetu w Padwie
Gerhard Budin , dyrektor Centrum Studiów nad Przekładem Uniwersytetu Wiedeńskiego , dyrektor Wydziału Korpuslingwistyki i Technologii Tekstu Austriackiej Akademii Nauk
Jamie Callan , profesor, Instytut Technologii Językowych, CMU, Carnegie Mellon University
Yves Chiaramella , emerytowany profesor, Wydział Informatyki i Matematyki Stosowanej, Uniwersytet Josepha Fouriera
Kilnam Chon , profesor, Wydział Informatyki, KAIST ( Koreański Instytut Zaawansowanej Nauki i Technologii )
W. Bruce Croft , wybitny profesor Wydziału Informatyki i dyrektor Centrum Inteligentnej IR University of Massachusetts Amherst
Hamish Cunningham , profesor naukowy na Wydziale Informatyki Uniwersytetu w Sheffield
Norbert Fuhr , Przewodniczący Rady Naukowej, Profesor, Instytut Informatyki i Systemów Interaktywnych Uniwersytet Duisburg-Essen
David Hawking , kierownik naukowy, kierownik projektu, CSIRO ICT Center
Noriko Kando , profesor, dział badań nad inżynierią oprogramowania, dział badań nad oprogramowaniem, National Institute of Informatics (NII)
Arcot Desai Narasimhalu , prodziekan, School of Information Systems Singapore Management University
John Tait , dyrektor naukowy IRF, do lipca 2007 profesor inteligentnych systemów informatycznych i prodziekan Wydziału Informatyki i Technologii
Benjamin T'sou , dyrektor Centrum Badań Nauk o Języku, Uniwersytet Miejski w Hongkongu
CJ van Rijsbergen , Wydział Informatyki na Uniwersytecie w Glasgow

Cele naukowe

Modelowanie innowacyjnych i specjalistycznych systemów wyszukiwania informacji dla globalnych zbiorów dokumentów patentowych.
Badanie i rozwijanie odpowiedniej infrastruktury technicznej, która umożliwia interaktywne eksperymentowanie z formalnymi, matematycznymi koncepcjami wyszukiwania zbiorów dokumentów na bardzo dużą skalę.
Badanie użyteczności multimodalnych interfejsów użytkownika w systemach wyszukiwania informacji na bardzo dużą skalę.
Integracja rzeczywistych użytkowników z rzeczywistymi potrzebami informacyjnymi w procesie badawczym modelowania systemów wyszukiwania informacji w celu umożliwienia dokładnej oceny wydajności.
Możliwość tworzenia różnych widoków danych patentowych w zależności od zakresu potrzebnych informacji.
Zdefiniowanie znormalizowanych metod benchmarkingu procesu wyszukiwania informacji w zbiorach dokumentów patentowych.
Umiejętność obsługi tekstowych i nietekstowych części patentu w spójny sposób.
Projektowanie, eksperymentowanie i ocena wyszukiwarek zdolnych do wyszukiwania ustrukturyzowanych i częściowo ustrukturyzowanych dokumentów w bardzo dużych zbiorach patentów.
Integracja wymiaru czasowego dokumentów patentowych w strategiach wyszukiwania.
Poprawa skuteczności i precyzji wyszukiwania patentów w oparciu o ontologie i techniki rozumienia języka naturalnego.
Udoskonalanie metod IR, które umożliwiają nieustrukturyzowane zapytania poprzez wykorzystanie dostępnej struktury w dokumentach patentowych.
Formalna (matematyczna) identyfikacja i specyfikacja odpowiednich informacji biznesowych w zakresie informacji o własności intelektualnej.
Badanie efektywnych mechanizmów skalowania wyszukiwania informacji z uwzględnieniem charakterystyki danych patentowych.
Badanie i eksperymentowanie z architekturami obliczeniowymi do zarządzania informacjami o bardzo dużej pojemności.
Stworzenie otwartej platformy eScience , która umożliwia ustandaryzowany i łatwy sposób tworzenia i przeprowadzania eksperymentów IR na wspólnej infrastrukturze badawczej.
Odkrywanie i badanie nowych przypadków użycia i aplikacji biznesowych wynikających z informacji o własności intelektualnej.
Umożliwienie formalnego wyszukiwania informacji, badań nad językiem naturalnym i przetwarzaniem semantycznym w dziedzinie nauk stosowanych w globalnym kontekście przemysłowym.
Rozwój i integracja różnych metod dostępu do informacji.
Badania nad efektywnymi metodami interaktywnego wyszukiwania informacji.

Superkomputery semantyczne

Obecne technologie wydobywania pojęć z nieustrukturyzowanych dokumentów są niezwykle intensywne obliczeniowo. Aby umożliwić interaktywne eksperymentowanie z bogatymi i ogromnymi korpusami tekstowymi, IRF zbudował środowisko obliczeniowe o wysokiej wydajności, w którym wdrożono najnowsze osiągnięcia technologiczne:

klastry wielowęzłowe (obecnie 80 rdzeni, do 1024)
najszybsza technologia interkonektów
pojedynczy obraz systemu z dużą pamięcią złożoną (obecnie 320 GB, do 4 TB)
w pełni zintegrowane konfigurowalne obliczenia (obecnie 4 rdzenie FPGA , do 256)

Połączenie tych funkcji HPC w celu przyspieszenia eksploracji tekstu reprezentuje implementację IRF superkomputerów semantycznych.

Światowy Korpus Patentowy

Celem IRF jest udostępnienie najnowocześniejszej technologii wyszukiwania informacji społeczności specjalistów ds. informacji patentowej. IRF spodziewa się, że technologia wyszukiwania informacji (IR) wkrótce stanie się przedmiotem zainteresowania technologii informatycznych. Wszystkie sektory przemysłu mogą odnieść korzyści z zastosowania nowoczesnych i przyszłych procesów eksploracji tekstu do specjalnych wymagań badań patentowych. Chociaż wszystkie pomysły i koncepcje mają uniwersalne zastosowanie do wszelkiego rodzaju informacji o własności intelektualnej, patenty wymagają największego wyrafinowania i stawiają nas przed trudnymi problemami technicznymi i organizacyjnymi. Cały zbiór dokumentów związanych z patentami stanowi prawdopodobnie największy zbiór dokumentów złożonych, co czyni go satysfakcjonującym celem zarówno dla naukowców zajmujących się eksploracją tekstu, jak i dla użytkowników końcowych. Co więcej, patenty stały się kwestią kluczową, szczególnie dla dużych światowych korporacji i uczelni. Przemysłowi użytkownicy danych patentowych należą do najbardziej wymagających i ważnych specjalistów w dziedzinie informacji. W rezultacie mogą oni odnieść największe korzyści z technologii, która zmniejsza ciężar badania dużej ilości informacji patentowych.

Zbiory badawcze

IRF zapewnia szereg zbiorów danych testowych, które zostały opracowane przez IRF, przez jednego z jej członków lub przez osoby trzecie. Te zbiory danych mogą być swobodnie wykorzystywane do eksperymentów naukowych.

MAtrixware REsearch Collection ( MAREC ) to pierwszy zestandaryzowany korpus danych patentowych do celów badawczych. Składa się z 19 milionów dokumentów patentowych w różnych językach, znormalizowanych do bardzo specyficznego formatu XML. Kolekcja została opracowana przez Matrixware dla IRF.

ClueWeb09 ^{[ potrzebne źródło ]} to zbiór danych o wielkości 25 terabajtów, zawierający około 1 miliarda stron internetowych przeszukanych w styczniu i lutym 2009 roku. Został stworzony przez Instytut Technologii Językowych na Uniwersytecie Carnegie Mellon w celu wspierania badań nad wyszukiwaniem informacji i powiązanymi technologiami języka ludzkiego .

Linki zewnętrzne