Narzędzie do wyszukiwania informacji

logo IRF

Information Retrieval Facility ( IRF ) , założona w 2006 roku i zlokalizowana w Wiedniu , Austria , była platformą badawczą służącą do nawiązywania kontaktów i współpracy dla profesjonalistów w dziedzinie wyszukiwania informacji . Zakończył działalność w 2012 roku.

IRF miał członków w następujących kategoriach:

  • Naukowcy zajmujący się wyszukiwaniem informacji (IR) lub pokrewnymi dziedzinami nauki
  • Specjaliści ds. zarządzania informacjami przemysłowymi/korporacyjnymi
  • Organy patentowe i instytucje rządowe
  • Studenci jednego z ww

Rada Naukowa

Cele naukowe

  • Modelowanie innowacyjnych i specjalistycznych systemów wyszukiwania informacji dla globalnych zbiorów dokumentów patentowych.
  • Badanie i rozwijanie odpowiedniej infrastruktury technicznej, która umożliwia interaktywne eksperymentowanie z formalnymi, matematycznymi koncepcjami wyszukiwania zbiorów dokumentów na bardzo dużą skalę.
  • Badanie użyteczności multimodalnych interfejsów użytkownika w systemach wyszukiwania informacji na bardzo dużą skalę.
  • Integracja rzeczywistych użytkowników z rzeczywistymi potrzebami informacyjnymi w procesie badawczym modelowania systemów wyszukiwania informacji w celu umożliwienia dokładnej oceny wydajności.
  • Możliwość tworzenia różnych widoków danych patentowych w zależności od zakresu potrzebnych informacji.
  • Zdefiniowanie znormalizowanych metod benchmarkingu procesu wyszukiwania informacji w zbiorach dokumentów patentowych.
  • Umiejętność obsługi tekstowych i nietekstowych części patentu w spójny sposób.
  • Projektowanie, eksperymentowanie i ocena wyszukiwarek zdolnych do wyszukiwania ustrukturyzowanych i częściowo ustrukturyzowanych dokumentów w bardzo dużych zbiorach patentów.
  • Integracja wymiaru czasowego dokumentów patentowych w strategiach wyszukiwania.
  • Poprawa skuteczności i precyzji wyszukiwania patentów w oparciu o ontologie i techniki rozumienia języka naturalnego.
  • Udoskonalanie metod IR, które umożliwiają nieustrukturyzowane zapytania poprzez wykorzystanie dostępnej struktury w dokumentach patentowych.
  • Formalna (matematyczna) identyfikacja i specyfikacja odpowiednich informacji biznesowych w zakresie informacji o własności intelektualnej.
  • Badanie efektywnych mechanizmów skalowania wyszukiwania informacji z uwzględnieniem charakterystyki danych patentowych.
  • Badanie i eksperymentowanie z architekturami obliczeniowymi do zarządzania informacjami o bardzo dużej pojemności.
  • Stworzenie otwartej platformy eScience , która umożliwia ustandaryzowany i łatwy sposób tworzenia i przeprowadzania eksperymentów IR na wspólnej infrastrukturze badawczej.
  • Odkrywanie i badanie nowych przypadków użycia i aplikacji biznesowych wynikających z informacji o własności intelektualnej.
  • Umożliwienie formalnego wyszukiwania informacji, badań nad językiem naturalnym i przetwarzaniem semantycznym w dziedzinie nauk stosowanych w globalnym kontekście przemysłowym.
  • Rozwój i integracja różnych metod dostępu do informacji.
  • Badania nad efektywnymi metodami interaktywnego wyszukiwania informacji.

Superkomputery semantyczne

Obecne technologie wydobywania pojęć z nieustrukturyzowanych dokumentów są niezwykle intensywne obliczeniowo. Aby umożliwić interaktywne eksperymentowanie z bogatymi i ogromnymi korpusami tekstowymi, IRF zbudował środowisko obliczeniowe o wysokiej wydajności, w którym wdrożono najnowsze osiągnięcia technologiczne:

  • klastry wielowęzłowe (obecnie 80 rdzeni, do 1024)
  • najszybsza technologia interkonektów
  • pojedynczy obraz systemu z dużą pamięcią złożoną (obecnie 320 GB, do 4 TB)
  • w pełni zintegrowane konfigurowalne obliczenia (obecnie 4 rdzenie FPGA , do 256)

Połączenie tych funkcji HPC w celu przyspieszenia eksploracji tekstu reprezentuje implementację IRF superkomputerów semantycznych.

Światowy Korpus Patentowy

Celem IRF jest udostępnienie najnowocześniejszej technologii wyszukiwania informacji społeczności specjalistów ds. informacji patentowej. IRF spodziewa się, że technologia wyszukiwania informacji (IR) wkrótce stanie się przedmiotem zainteresowania technologii informatycznych. Wszystkie sektory przemysłu mogą odnieść korzyści z zastosowania nowoczesnych i przyszłych procesów eksploracji tekstu do specjalnych wymagań badań patentowych. Chociaż wszystkie pomysły i koncepcje mają uniwersalne zastosowanie do wszelkiego rodzaju informacji o własności intelektualnej, patenty wymagają największego wyrafinowania i stawiają nas przed trudnymi problemami technicznymi i organizacyjnymi. Cały zbiór dokumentów związanych z patentami stanowi prawdopodobnie największy zbiór dokumentów złożonych, co czyni go satysfakcjonującym celem zarówno dla naukowców zajmujących się eksploracją tekstu, jak i dla użytkowników końcowych. Co więcej, patenty stały się kwestią kluczową, szczególnie dla dużych światowych korporacji i uczelni. Przemysłowi użytkownicy danych patentowych należą do najbardziej wymagających i ważnych specjalistów w dziedzinie informacji. W rezultacie mogą oni odnieść największe korzyści z technologii, która zmniejsza ciężar badania dużej ilości informacji patentowych.

Zbiory badawcze

IRF zapewnia szereg zbiorów danych testowych, które zostały opracowane przez IRF, przez jednego z jej członków lub przez osoby trzecie. Te zbiory danych mogą być swobodnie wykorzystywane do eksperymentów naukowych.

MAtrixware REsearch Collection ( MAREC ) to pierwszy zestandaryzowany korpus danych patentowych do celów badawczych. Składa się z 19 milionów dokumentów patentowych w różnych językach, znormalizowanych do bardzo specyficznego formatu XML. Kolekcja została opracowana przez Matrixware dla IRF.

ClueWeb09 [ potrzebne źródło ] to zbiór danych o wielkości 25 terabajtów, zawierający około 1 miliarda stron internetowych przeszukanych w styczniu i lutym 2009 roku. Został stworzony przez Instytut Technologii Językowych na Uniwersytecie Carnegie Mellon w celu wspierania badań nad wyszukiwaniem informacji i powiązanymi technologiami języka ludzkiego .

Linki zewnętrzne