Analiza bliskości współcytowania

Documents B and C are cited in closer proximity to each other in the full-text of the citing document, when compared to document A. Hence, according to co-citation proximity analysis, documents B and C are more strongly related than documents A and B or A and C.
Rysunek przedstawiający podejście analizy bliskości współcytowania (CPA) do obliczania podobieństwa dokumentów.

Analiza bliskości współcytowania lub CPA to miara podobieństwa dokumentów , która wykorzystuje analizę cytowań do oceny podobieństwa semantycznego między dokumentami zarówno na poziomie dokumentu globalnego, jak i na poziomie poszczególnych sekcji. Miara podobieństwa opiera się na opartym na analizie współcytowań , ale różni się tym, że wykorzystuje informacje wynikające z umieszczania cytatów w pełnych tekstach dokumentów.

Analiza bliskości współcytowania została wymyślona przez B. Gippa w 2006 r., A opis miary podobieństwa dokumentów został później opublikowany przez Gippa i Beela w 2009 r. Miara podobieństwa opiera się na założeniu, że w pełnym tekście dokumentu dokumenty cytowane w blisko siebie wydają się być silniej powiązane niż dokumenty cytowane dalej od siebie. Rysunek po prawej ilustruje tę koncepcję. Podejście CPA do podobieństwa dokumentów zakłada, że ​​dokumenty B i C są silniej powiązane niż dokumenty B i A, ponieważ cytaty z B i C występują w tym samym zdaniu, podczas gdy cytaty z B i A są oddzielone kilkoma akapitami.

Zaletą podejścia CPA w porównaniu z innymi podejściami do analizy cytowań i współcytowań jest poprawa precyzji. Inne szeroko stosowane podejścia do analizy cytowań, takie jak łączenie bibliograficzne , współcytowanie lub miara Amslera , nie uwzględniają lokalizacji lub bliskości cytowań w dokumentach. Podejście CPA umożliwia bardziej szczegółową automatyczną klasyfikację dokumentów i może być również wykorzystywane do identyfikowania nie tylko powiązanych dokumentów, ale także określonych sekcji w tekstach, które są najbardziej powiązane.

Metoda obliczeń

Miara podobieństwa CPA oblicza wskaźnik bliskości cytowań ( CPI ) dla każdego zestawu dokumentów cytowanych przez badany dokument. dokumentom przypisuje się wagę , gdzie oznacza liczbę poziomów między Zaczynając od najniższego poziomu, poziomy można zdefiniować jako grupy cytowań, zdania, akapity, rozdziały, a na końcu cały dokument, a nawet dziennik.

Istnieje kilka odmian algorytmu CPA.

  • Basic-CPA – podstawowa koncepcja CPA opisana powyżej
  • Extended-CPA – uwzględnia strukturę drzewa i kolejność cytowań w ramach grup cytowań
  • Wielowymiarowy CPA – wykorzystuje dodatkowe informacje, takie jak Impact Factor
  • Hybrid-CPA – łączy CPI z innymi miarami podobieństwa, na przykład miarami tekstowymi. Zwiększa to wydajność, zwłaszcza w przypadku dokumentów z niewystarczającymi informacjami o cytowaniach.

Wydajność

Miara podobieństwa CPA opiera się na podejściu dotyczącym podobieństwa dokumentów współcytowanych z charakterystycznym dodatkiem analizy bliskości. Dlatego podejście CPA pozwala na obliczenie bardziej szczegółowej rozdzielczości ogólnego podobieństwa dokumentów. Stwierdzono, że CPA przewyższa analizę współcytowań, zwłaszcza gdy dokumenty zawierają obszerne bibliografie oraz w przypadkach, gdy dokumenty nie były często cytowane razem (tj. mają niski wynik współcytowania). Liu i Chen stwierdzili, że współcytowania na poziomie zdań są potencjalnie bardziej skutecznymi znacznikami do wykorzystania w analizie współcytowania w porównaniu z luźno powiązanymi współcytowaniami tylko na poziomie artykułu, ponieważ współcytowania na poziomie zdania mają tendencję do zachowania zasadniczej struktury tradycyjnej sieci współcytowania, a także tworzą znacznie mniejszy podzbiór wszystkich przypadków współcytowania.

Analiza przeprowadzona przez Schwarzera i in. wykazało, że miary oparte na cytowaniach CPA i analiza współcytowania mają uzupełniające się mocne strony w porównaniu z miarami podobieństwa opartymi na tekście. Podejścia oparte na podobieństwie tekstu niezawodnie identyfikowały bardziej podobne artykuły z testowego zbioru artykułów Wikipedii, np. prawdopodobnie również wyższej jakości.

Zobacz też

Dalsza lektura

Bela Gipp i Joeran Beel. Identyfikacja powiązanych dokumentów dla rekomendującego artykuł badawczy według CPA i COA. W SI Ao, C. Douglas, WS Grundfest i J. Burgstone, redaktorzy, Proceedings of the world Congress on Engineering and Computer Science 2009, tom 1 Lecture Notes in Engineering and Computer Science, strony 636-639, Berkeley (USA) , paź 2009. Międzynarodowe Stowarzyszenie Inżynierów (IAENG), Newswood Limited. Dostępne tutaj

Bela Gipp. Mierzenie pokrewieństwa dokumentów za pomocą analizy bliskości cytowań i analizy kolejności cytowań. W M. Lalmas, J. Jose, A. Rauber, F. Sebastiani i I. Frommholz, redaktorzy, Proceedings of the 14th European Conference on Digital Library (ecdl'10): research and advanced technology for digital librarys, tom 6273 z Notatki z wykładów z informatyki (LNCS). Springer, wrzesień 2010. Dostępne tutaj