Eksperymenty Cranfielda

Eksperymenty Cranfielda były serią badań eksperymentalnych dotyczących wyszukiwania informacji przeprowadzonych przez Cyrila W. Cleverdona w College of Aeronautics, dziś znanym jako Cranfield University , w latach 60. XX wieku w celu oceny wydajności systemów indeksowania . Eksperymenty zostały podzielone na dwie główne fazy, z których żadna nie była skomputeryzowana. Cały zbiór streszczeń, wynikające z nich indeksy i wyniki zostały później rozpowszechnione w formacie elektronicznym i były szeroko stosowane przez dziesięciolecia.

W pierwszej serii eksperymentów porównano kilka istniejących metod indeksowania, aby sprawdzić ich skuteczność. Zapytania zostały wygenerowane przez autorów artykułów znajdujących się w zbiorze, a następnie przetłumaczone na wyszukiwania indeksów przez ekspertów w tych systemach. W tej serii jedna metoda przeszła od najmniej wydajnej do najbardziej wydajnej po wprowadzeniu drobnych zmian w układzie sposobu zapisywania danych na fiszkach . Wniosek wydawał się być taki, że podstawowa metodologia wydawała się mniej ważna niż szczegółowe szczegóły dotyczące wdrażania. Doprowadziło to do poważnej debaty na temat metodologii eksperymentów.

Ta krytyka doprowadziła również do drugiej serii eksperymentów, obecnie znanej jako Cranfield 2. Cranfield 2 próbował uzyskać dodatkowy wgląd, odwracając metodologię; Cranfield 1 przetestował zdolność ekspertów do znalezienia określonego zasobu zgodnie z systemem indeksów, Cranfield 2 zamiast tego zbadał wyniki zadawania pytań w języku ludzkim i sprawdzania, czy system indeksowania zapewnia odpowiednią odpowiedź, niezależnie od tego, czy był to oryginalny dokument docelowy. To też było tematem poważnej debaty.

Eksperymenty Cranfielda wywarły ogromny wpływ na dziedzinę wyszukiwania informacji, która sama w sobie była przedmiotem znacznego zainteresowania w okresie po II wojnie światowej, kiedy ilość badań naukowych eksplodowała. Był to temat nieustannej debaty przez lata i doprowadził do kilku projektów komputerowych w celu przetestowania jego wyników. Jego wpływ był znaczny w okresie czterdziestu lat, zanim indeksy języka naturalnego , takie jak te z nowoczesnych wyszukiwarek internetowych, stały się powszechne.

Tło

Słynny obecnie artykuł z lipca 1945 r. „ As We May Think ” autorstwa Vannevara Busha jest często wymieniany jako pierwszy pełny opis dziedziny, która stała się wyszukiwaniem informacji . Artykuł opisuje hipotetyczną maszynę znaną jako „ memex ”, która przechowuje całą wiedzę ludzkości w zindeksowanej formie, która umożliwiłaby każdemu jej odzyskanie.

W 1948 roku Towarzystwo Królewskie zorganizowało Konferencję Informacji Naukowej, podczas której po raz pierwszy formalnie zbadano niektóre z tych koncepcji. Doprowadziło to do niewielkiej liczby eksperymentów w terenie w Wielkiej Brytanii, Stanach Zjednoczonych i Holandii. Jedynym poważnym wysiłkiem mającym na celu porównanie różnych systemów był prowadzony przez Gulla przy użyciu zbioru prac Agencji Informacji Technicznej Sił Zbrojnych, która rozpoczęła się jako zbiór raportów lotniczych przechwyconych w Niemczech pod koniec II wojny światowej . Ocena wyników została przeprowadzona przez ekspertów w obu systemach i nigdy nie zgodzili się co do tego, czy różne odzyskane dokumenty były istotne dla wyszukiwania, przy czym każda grupa odrzuciła ponad 30% wyników jako błędnych. Dalsze testy zostały anulowane, ponieważ wydawało się, że nie ma konsensusu.

Druga konferencja na ten temat, Międzynarodowa Konferencja Informacji Naukowej, odbyła się w Waszyngtonie w 1958 roku, kiedy rozwój komputerów osiągnął punkt, w którym możliwe było automatyczne wyszukiwanie indeksów. To właśnie na tym spotkaniu Cyril W. Cleverdon „wziął coś między zęby” i udało mu się zorganizować fundusze z amerykańskiej National Science Foundation na rozpoczęcie tego, co później będzie znane jako Cranfield 1.

Cranfield 1

Pierwsza seria eksperymentów bezpośrednio porównywała cztery systemy indeksowania, które reprezentowały znacząco różne podstawy koncepcyjne. Cztery systemy to Uniwersalna Klasyfikacja Dziesiętna , system hierarchiczny szeroko wprowadzany w bibliotekach, Alfabetyczny Katalog Przedmiotów, który alfabetycznie ułożył nagłówki przedmiotów w klasycznych zbiorach fiszek bibliotecznych, Schemat klasyfikacji fasetowej , który umożliwia kombinacje przedmiotów w celu uzyskania nowych przedmiotów, oraz Mortimer Taube Unitermowy system indeksowania współrzędnych, w którym odniesienie można znaleźć na dowolnej liczbie oddzielnych kart indeksowych .

We wczesnej serii eksperymentów uczestnicy zostali poproszeni o utworzenie indeksów do zbioru dokumentów związanych z lotnictwem . Każdy indeks został przygotowany przez eksperta w tej metodologii. Następnie poproszono autorów oryginalnych dokumentów o przygotowanie zestawu wyszukiwanych haseł, które powinny zwrócić ten dokument. Eksperci ds. indeksowania zostali następnie poproszeni o wygenerowanie zapytań do swojego indeksu w oparciu o wyszukiwane hasła autora. Zapytania zostały następnie użyte do zbadania indeksu, aby zobaczyć, czy zwrócił on dokument docelowy.

W tych testach wszystkie systemy z wyjątkiem systemu fasetowego dały mniej więcej taką samą liczbę „poprawnych” wyników, podczas gdy koncepcja fasetowa pozostawała w tyle. Analizując te wyniki, system fasetowy został ponownie zindeksowany przy użyciu innego formatu na kartach i ponownie przeprowadzono testy. W tej serii testów system fasetowy był teraz wyraźnym zwycięzcą. Sugerowało to, że teoria leżąca u podstaw systemu była mniej ważna niż specyfika implementacji.

Wyniki tych eksperymentów, opublikowane w 1962 roku, wywołały ogromną debatę, zarówno wśród zwolenników różnych systemów, jak i wśród badaczy, którzy narzekali na eksperymenty jako całość. Niemniej jednak wydawało się, że jeden wniosek został wyraźnie potwierdzony: proste systemy oparte na słowach kluczowych wydawały się działać równie dobrze, jak złożone schematy klasyfikacyjne. Jest to ważne, ponieważ te pierwsze są znacznie łatwiejsze do wdrożenia.

Cranfield 2

W pierwszej serii eksperymentów ekspertom w używaniu różnych technik powierzono zadanie zarówno stworzenia indeksu, jak i jego użycia w odniesieniu do przykładowych zapytań. Każdy system miał własną koncepcję struktury zapytania, która dziś byłaby znana jako język zapytań . Większość krytyki pierwszych eksperymentów koncentrowała się na tym, czy eksperymenty naprawdę testowały systemy, czy też zdolność użytkownika do przetłumaczenia zapytania na język zapytań.

Doprowadziło to do drugiej serii eksperymentów, Cranfield 2, w których rozważano kwestię konwersji zapytania na język. Aby to zrobić, zamiast traktować generowanie zapytania jako czarną skrzynkę , każdy krok został podzielony. Wynik tego podejścia był wówczas rewolucyjny; zasugerował pozostawienie wyszukiwanych terminów w ich oryginalnym formacie, co dziś byłoby znane jako zapytanie w języku naturalnym .

Kolejną ważną zmianą był sposób oceniania wyników. W oryginalnych testach sukces następował tylko wtedy, gdy indeks zwracał dokładny dokument, który został użyty do wygenerowania wyszukiwania. Nie było to jednak typowe dla rzeczywistego zapytania; użytkownik poszukujący informacji na temat podwozia samolotu może być zadowolony z którejkolwiek z wielu prac na ten temat w kolekcji, ale Cranfield 1 uznałby taki wynik za porażkę, pomimo zwrotu odpowiednich materiałów. W drugiej serii wyniki były oceniane przez osoby trzecie, które udzielały jakościowej odpowiedzi na pytanie, czy zapytanie wygenerowało odpowiedni zestaw dokumentów, w przeciwieństwie do zwracania określonego oryginalnego dokumentu.

Ciąg dalszy debaty

Wyniki dwóch serii testów przez lata były przedmiotem poważnej debaty. W szczególności doprowadziło to do trwającej debaty między Cleverdonem i Jasonem Farradane , jednym z założycieli Institute of Information Scientists w 1958 roku. Obaj niezmiennie pojawiali się na spotkaniach, na których prezentował drugi, a następnie, w okresie pytań i odpowiedzi , wyjaśnić, dlaczego wszystko, co robili, było złe. Debata została scharakteryzowana jako „… zaciekła i nieubłagana, czasami daleko wykraczająca poza granice uprzejmości”. Do tego chóru dołączył Don R. Swanson ze Stanów Zjednoczonych, który kilka lat później opublikował krytykę eksperymentów Cranfielda.

Pomimo tej krytyki, Cranfield 2 ustawił poprzeczkę, według której oceniano wiele kolejnych eksperymentów. W szczególności metodologia Cranfield 2, rozpoczynająca się od terminów języka naturalnego i oceniająca wyniki na podstawie trafności, a nie dokładnych dopasowań, stała się niemal uniwersalna w kolejnych eksperymentach pomimo wielu zastrzeżeń.

Wpływ

Wraz z zakończeniem Cranfield 2 w 1967 r. Cały korpus został opublikowany w formie nadającej się do odczytu maszynowego. Dziś jest to znane jako Cranfield 1400 lub dowolna odmiana tego tematu. Nazwa nawiązuje do liczby dokumentów w zbiorze, na który składa się 1398 abstraktów. Kolekcja zawiera również 225 zapytań i oceny istotności wszystkich par zapytanie:dokument, które powstały w wyniku eksperymentów. Główna baza abstraktów zajmuje ok. 1,6 MB.

Eksperymenty przeprowadzono w czasach, gdy komputery miały kilka kilobajtów pamięci głównej i dostęp do sieci do kilku megabajtów . Na przykład średniej klasy IBM System/360 Model 50 był dostarczany z pamięcią rdzeniową od 64 do 512 kB (z tendencją do dolnego końca) i typowym dyskiem twardym o pojemności nieco ponad 80 MB. Wraz ze wzrostem możliwości systemów w latach 60. i 70. kolekcja dokumentów Cranfield stała się głównym zbiorem testowym, który był używany wielokrotnie przez wiele lat.

Obecnie kolekcja jest zbyt mała, aby można ją było wykorzystać do praktycznych testów wykraczających poza eksperymenty pilotażowe. Jego miejsce zajął głównie zbiór TREC, który zawiera 1,89 miliona dokumentów z szerszej gamy tematów, lub jeszcze nowsza kolekcja GOV2 obejmująca 25 milionów stron internetowych.

Zobacz też

Cytaty

Bibliografia

Linki zewnętrzne