Odkrycie oparte na literaturze

Przykładowy diagram łączenia Swansona z wykorzystaniem paradygmatu ABC

Odkrywanie oparte na literaturze (LBD), zwane także odkrywaniem związanym z literaturą (LRD), jest formą ekstrakcji wiedzy i automatycznego generowania hipotez , która wykorzystuje artykuły i inne publikacje akademickie („literatura”) w celu znalezienia nowych relacji między istniejącą wiedzą („ odkrycie"). Odkrywanie oparte na literaturze ma na celu odkrycie nowej wiedzy poprzez połączenie informacji, które zostały wyraźnie określone w literaturze, aby wydedukować powiązania, które nie zostały wyraźnie określone.

LBD może pomóc naukowcom w szybkim odkrywaniu i badaniu hipotez, a także zdobywaniu informacji o istotnych postępach w ich niszach i poza nimi oraz zwiększaniu interdyscyplinarnej wymiany informacji.

Najbardziej podstawowy i rozpowszechniony typ LBD nazywany jest paradygmatem ABC , ponieważ koncentruje się wokół trzech pojęć zwanych A, B i C. Stwierdza on, że jeśli istnieje związek między A i B oraz jeden między B i C, to istnieje jeden między A i C, które, jeśli nie zostały wyraźnie określone, nie zostały jeszcze zbadane.

Historia

Technika LBD została zapoczątkowana przez Dona R. Swansona w latach 80-tych. Postawił hipotezę, że połączenie dwóch oddzielnie opublikowanych wyników wskazujących na zależność AB i zależność BC jest dowodem na zależność AC, która jest nieznana lub niezbadana. Wykorzystał to, aby zaproponować olej z ryb jako lek na zespół Raynauda ze względu na ich wspólny związek z lepkością krwi . Później wykazano, że ta hipoteza ma wartość w badaniach prospektywnych, a on nieustannie proponował inne odkrycia przy użyciu podobnych metod.

Łączenie Swansona

Łączenie Swansona to termin zaproponowany w 2003 roku, który odnosi się do łączenia dwóch fragmentów wiedzy, które wcześniej uważano za niepowiązane. Na przykład, może być wiadomo, że choroba A jest spowodowana substancją chemiczną B, a lek C zmniejsza ilość substancji chemicznej B w organizmie. Jednakże, ponieważ odpowiednie artykuły zostały opublikowane oddzielnie od siebie (tzw. „dane rozłączne”), związek między chorobą A a lekiem C może być nieznany. Łączenie Swansona ma na celu znalezienie tych relacji i zgłoszenie ich.

Chociaż paradygmat ABC jest szeroko stosowany, krytycy systemu argumentowali, że większość nauki nie opiera się na prostych twierdzeniach i jest raczej zbudowana z analogii i obrazów na wyższym poziomie abstrakcji .

Systemy

LBD występuje zasadniczo w dwóch wersjach: otwartej i zamkniętej. W otwartym odkrywaniu dane jest tylko A. Podejście to znajduje B i wykorzystuje je, aby zwrócić użytkownikowi potencjalnie interesujące C, generując w ten sposób hipotezy na podstawie A. Przy zamkniętym odkrywaniu A i C są przydzielane podejściu, które ma na celu znalezienie B, które mogą połączyć te dwa, testując w ten sposób hipoteza o A i C.

Na przestrzeni lat opracowano szereg systemów do przeprowadzania odkryć opartych na literaturze, rozszerzając pierwotną koncepcję Dona Swansona, a ocena jakości takich systemów jest aktywnym obszarem badań. Niektóre systemy zawierają wersje internetowe w celu zwiększenia łatwości obsługi. Powszechnym podejściem do wielu systemów jest używanie terminów MeSH do reprezentowania artykułów naukowych. Jest to wykorzystywane przez systemy Manjal, BITOLA i LitLinker.

Jeden dobrze znany system w tej dziedzinie nazywa się Arrowsmith i jest dostosowany do znajdowania połączeń między dwoma rozłącznymi zestawami artykułów, co jest podejściem określanym mianem wyszukiwania „dwuwęzłowego”.

Inny dobrze znany system, LION LBD, wykorzystuje PubTator do opisywania artykułów naukowych PubMed pojęciami takimi jak chemikalia , geny/białka, mutacje , choroby i gatunki ; a także adnotacje na poziomie zdań dotyczące cech charakterystycznych raka, które opisują podstawowe procesy i zachowanie raka. Wykorzystuje metryki współwystępowania do uszeregowania relacji między pojęciami i przeprowadza zarówno otwarte, jak i zamknięte odkrywanie.

Podczas gdy systemy LBD opierają się na tradycyjnych metodach statystycznych, inne systemy wykorzystują zaawansowane metody uczenia maszynowego , takie jak sieci neuronowe . Niektóre systemy LBD przedstawiają związek między pojęciami jako graf wiedzy , a zatem wykorzystują techniki teorii grafów . Reprezentacja oparta na grafach jest również podstawą systemów LBD, które wykorzystują grafowe bazy danych, takie jak Neo4J , umożliwiając wykrywanie za pomocą języków zapytań grafowych, takich jak Cypher .

Systemy LBD oparte na grafach reprezentują relacje między pojęciami przy użyciu różnych typów relacji, takich jak te w sieci semantycznej UMLS . Niektóre podejścia idą dalej i próbują zastosować relacje kontekstualne, podejście stosowane również przez Gene Ontology do modelowania aktywności przyczynowej (GO-CAM).

Korzystanie z baz danych

Oprócz wydobywania informacji z artykułów naukowych, systemy LBD często wykorzystują ustrukturyzowaną wiedzę z biokurowanych zasobów biologicznych, takich jak Online Mendelian Inheritance in Men (OMIM).

Lista systemów

System wykrywania oparty na literaturze Anni 2.0, wykorzystujący przepływ pracy podobny do innych systemów LBD.

Oto opublikowane systemy LBD, uporządkowane według daty publikacji:

  • 1986 - Arrowsmith
  • 2000-BITOLA V1
  • 2001 - TATA
  • 2003 - LitLinker
  • 2004 - czołgi
  • 2004 - Mandżal
  • 2004 - OPALIZUJĄCY
  • 2005-BITOLA V2
  • 2006 — LitLinker V2
  • 2007 — Arrowsmith V2
  • 2008 - Anni 2.0
  • 2008 — Odkrycie CoPuba
  • 2009 - RajoLink
  • 2010 - Sem-BT
  • 2015 - Oczywiscie
  • 2016 - Iskra
  • 2017 — Wydobądź lukę
  • 2019 - LION LBD

Typowanie semantyczne

Częstym zadaniem odkrywania opartego na literaturze jest przypisywanie słów/pojęć do różnych typów semantycznych. Pojęcie może być sklasyfikowane w ramach jednego typu lub wielu typów. Na przykład w Ujednoliconym Systemie Języka Medycznego (UMLS) termin migrena jest klasyfikowany jako choroba i zespół , podczas gdy termin magnez obejmuje dwa rodzaje: substancja biologicznie czynna i pierwiastek , jon lub izotop. Wpisywanie _ pojęć doskonali odkrywanie powiązań między poszczególnymi klasami pojęć, tj. choroby - geny lub choroby - leki .

Ocena systemu

Ocena odkryć opartych na literaturze jest trudna i obejmuje zarówno metody eksperymentalne, jak i in silico . Metody próbują ilościowo określić ilość wiedzy generowanej przez systemy, która powinna być dostarczona w ilości i bogactwie użytecznym dla naukowców.

Ocena w LBD jest trudna z kilku powodów: brak zgody co do roli systemów LBD w badaniach, a tym samym, co sprawia, że ​​​​odnoszą sukces; trudność w określeniu, jak przydatne, interesujące lub wykonalne jest odkrycie; oraz trudność w obiektywnym zdefiniowaniu „ odkrycia ”, co utrudnia stworzenie standardowego zestawu oceny, który określa ilościowo, kiedy odkrycie zostało powtórzone lub znalezione.

Popularną metodą stosowaną w LBD jest powielanie wcześniejszych odkryć. Są to zwykle odkrycia oparte na LBD, ponieważ są stosunkowo łatwe do oszacowania w porównaniu z innymi odkryciami. Istnieje tylko kilka takich odkryć, a podejścia dostrojone do tych odkryć mogą nie być generalizowane. W tego typu ocenie literatura przed odkryciem, które ma zostać powtórzone, jest wykorzystywana do wygenerowania uszeregowanej listy kandydatów do odkrycia jako terminów docelowych lub łączących. Miarą sukcesu jest podanie rangi interesującego nas terminu lub terminów; im wyższa ranga, tym lepsze podejście.

Krojenie literatury lub krojenie w czasie obejmuje dzielenie istniejącej literatury w określonym momencie. System LBD jest następnie eksponowany w literaturze przed podziałem i oceniany na podstawie liczby odkryć w późniejszym okresie, które może odkryć. Systemy LBD wykorzystywały współwystępowanie terminów, relacje z zewnętrznych zasobów biomedycznych (np. SemMedDB) oraz relacje semantyczne do generowania złotych standardów. Podejście o wysokiej precyzji polega na uzyskaniu opinii ekspertów w celu wygenerowania złotego standardu, ale jest to czasochłonne, kosztowne i ma tendencję do uzyskiwania niskich wskaźników przypominania.

Zaletą cięcia w czasie w porównaniu z replikacją poprzednich odkryć jest ocena na dużej liczbie instancji testowych. Rodzi to zapotrzebowanie na metryki oceny , które mogą określać ilościowo wydajność na dużych, uszeregowanych listach. Prace LBD wykorzystywały metryki popularne w wyszukiwaniu informacji, które obejmują precyzję, pamięć, obszar pod krzywą (AUC), precyzję przy k , średnią precyzję średnią (MAP) i inne.

Podejście polegające na proponowaniu nowych odkryć lub metod leczenia wykracza poza powielanie wcześniejszych odkryć lub przewidywanie przypadków określonego związku w przekrojach czasowych i pokazuje, że system można wykorzystać w realistycznych sytuacjach . Zwykle towarzyszy temu recenzowana publikacja w domenie lub weryfikacja przez eksperta w dziedzinie .

Eksploracja tekstu

Normalizacja nazw genów, ważny krok w LBD w przypadku genów

Automatyzacja odkrywania opartego na literaturze w dużej mierze opiera się na eksploracji tekstu .

Język artykułów naukowych często zawiera niejasności, a ważnym krokiem w spójnej analizie literatury jest wyodrębnienie sensu każdego terminu w kontekście, w jakim są używane, zadanie zwane ujednoznacznieniem sensu słów (WSD). Na przykład terminy określające geny, takie jak CT ( PCYT1A ) o nazwie i MR ( NR3C2 ), można pomylić z akronimami oznaczającymi tomografię komputerową i rezonans magnetyczny , co wymaga wyrafinowanych systemów ujednoznaczniających. Terminy są często uzgadniane z ontologiami lub inne źródła unikalnych identyfikatorów, takie jak Unified Medical Language System (UMLS). Ten proces mapowania wielu różnych wypowiedzi na jedną nazwę lub identyfikator jest nazywany normalizacją.

Stosowanie

Nauki o życiu

LBD był już używany na różne sposoby do identyfikacji nowych powiązań między jednostkami biomedycznymi a nowymi genami kandydującymi i metodami leczenia chorób.

Odkrycie narkotyków

LBD znalazło zastosowanie w opracowywaniu i zmianie przeznaczenia leków, a także w przewidywaniu niepożądanych reakcji na leki.

Metoda odkryć opartych na literaturze została wykorzystana do poszukiwania metod leczenia wielu chorób człowieka, w tym:

Odkrycie funkcji genów i białek

Podejście to zostało również wykorzystane do zaproponowania związków genów z określonymi chorobami, takimi jak rak piersi .

W kontekście wakcynologii systemowej wykorzystano ją do identyfikacji białek związanych z interferonem gamma i odgrywających rolę w odpowiedzi na szczepionki .

Został również wykorzystany do zaproponowania mechanizmów dla obecnie stosowanych leków.

Odkrycie biomarkerów

LBD zostało zbadane jako narzędzie do identyfikacji biomarkerów do diagnostyki i prognostyki chorób, np. ryzyka cukrzycy typu 2 .

Inne zastosowania

Oprócz dostarczania hipotez naukowych na temat świata, LBD został również wykorzystany do ulepszenia analizy danych poprzez automatyczną identyfikację możliwych czynników zakłócających przy użyciu literatury medycznej.

Został również wykorzystany do lepszego zrozumienia etiologii chorób i związku różnych chorób, na przykład do poszukiwania genów łączących zawał mięśnia sercowego i depresję oraz powiązań między chorobami psychicznymi i somatycznymi.

Poza naukami przyrodniczymi

LBD był głównie wdrażany w domenie biomedycznej, ale był również używany poza nią, ponieważ został zastosowany do badań nad rozwijaniem systemów oczyszczania wody , przyspieszaniem rozwoju krajów rozwijających się i identyfikowaniem obiecujących współpracy badawczych.

Zobacz też

Dodatkowa lektura

  •   Wilson, Patryk (1977). Wiedza publiczna, prywatna ignorancja: w kierunku polityki bibliotecznej i informacyjnej . Grupa wydawnicza Greenwood. P. 156. ISBN 0-8371-9485-7 .