Bazy danych niezależne od schematu

Bazy danych niezależne od schematu lub bazy danych niezależne od słownictwa mają na celu wspieranie użytkowników w abstrakcji od reprezentacji danych, wspierając automatyczne dopasowywanie semantyczne między zapytaniami a bazami danych . Schemat-agnostycyzm jest właściwością bazy danych polegającą na mapowaniu zapytania wysłanego z terminologią i strukturą użytkownika, automatycznie mapując je na słownictwo zbioru danych.

Wzrost rozmiaru i semantycznej heterogeniczności schematów baz danych stwarza nowe wymagania dla użytkowników wysyłających zapytania i przeszukujących dane strukturalne . W tej skali zapoznanie się z reprezentacją danych w celu przesłania zapytania może stać się niewykonalne dla konsumentów danych. W centrum tej dyskusji znajduje się luka semantyczna między użytkownikami a bazami danych, która staje się coraz ważniejsza wraz ze wzrostem skali i złożoności danych.

Opis

Ewolucja środowisk danych w kierunku wykorzystania danych z wielu źródeł danych oraz wzrost rozmiaru , złożoności , dynamiki i decentralizacji schematów (SCoDD) zwiększa złożoność współczesnego zarządzania danymi. Trend SCoDD pojawia się jako główny problem zarządzania danymi w Big Data , w których użytkownicy i aplikacje mają zapotrzebowanie na pełniejsze dane, wytwarzane przez niezależne źródła danych, przy różnych założeniach semantycznych i kontekstach użytkowania, co jest typowym scenariuszem dla sieci semantycznej Aplikacje danych.

Ewolucja baz danych w kierunku heterogenicznych środowisk danych silnie wpływa na użyteczność, semiotykę i założenia semantyczne stojące za istniejącymi metodami udostępniania danych, takimi jak zapytania strukturalne, systemy wyszukiwania oparte na słowach kluczowych i zapytania wizualne. W przypadku baz danych pozbawionych schematów, zawierających potencjalnie miliony dynamicznie zmieniających się atrybutów, dla niektórych użytkowników staje się niewykonalne poznanie „schematu” lub słownictwa w celu przeszukania bazy danych. W tej skali wysiłek włożony w zrozumienie schematu w celu zbudowania ustrukturyzowanego zapytania może stać się zbyt duży.

Zapytania niezależne od schematu

Zapytania niezależne od schematu można zdefiniować jako podejścia do zapytań w ustrukturyzowanych bazach danych, które umożliwiają użytkownikom zaspokojenie złożonych potrzeb informacyjnych bez zrozumienia reprezentacji (schematu) bazy danych. Podobnie Tran i in. definiuje to jako „podejścia do wyszukiwania, które nie wymagają od użytkowników znajomości schematu leżącego u podstaw danych”. Podejścia, takie jak przeszukiwanie baz danych na podstawie słów kluczowych, umożliwiają użytkownikom przeszukiwanie baz danych bez stosowania zapytań strukturalnych. Jednak, jak omówili Tran i in.: „Od tego momentu użytkownicy muszą jednak wykonywać dalszą nawigację i eksplorację, aby zaspokoić złożone potrzeby informacyjne. W przeciwieństwie do wyszukiwania słów kluczowych stosowanego w Internecie, które koncentruje się na prostych potrzebach, omówione tutaj wyszukiwanie słów kluczowych jest używany do uzyskiwania bardziej złożonych wyników. Zamiast pojedynczego zestawu zasobów, celem jest obliczenie złożonych zestawów zasobów i ich relacji.

Rozwój podejść do obsługi interfejsów języka naturalnego (NLI) w bazach danych miały na celu osiągnięcie celu, jakim są zapytania niezależne od schematu. Uzupełniająco, niektóre podejścia oparte na wyszukiwaniu słów kluczowych obejmują ukierunkowane zapytania oparte na słowach kluczowych, które wyrażają bardziej złożone potrzeby informacyjne. Inne podejścia badały konstrukcję ustrukturyzowanych zapytań w bazach danych, w których można złagodzić ograniczenia schematu. Wszystkie te podejścia (język naturalny, wyszukiwanie oparte na słowach kluczowych i zapytania strukturalne) ukierunkowane były na różne stopnie zaawansowania w rozwiązywaniu problemu wspierania elastycznego dopasowywania semantycznego między zapytaniami a danymi, które różnią się od całkowitego braku troski semantycznej do bardziej pryncypialnej semantyki modele. Chociaż zapotrzebowanie na agnostycyzm schematów było niejawnym wymogiem w systemach wyszukiwania semantycznego i systemach zapytań w języku naturalnym w odniesieniu do danych strukturalnych, nie jest ono wystarczająco zindywidualizowane jako koncepcja i niezbędny wymóg dla współczesnych systemów zarządzania bazami danych. W ostatnich pracach rozpoczęto definiowanie i modelowanie aspektów semantycznych związanych z zapytaniami niezależnymi od schematu.

Zapytania strukturalne niezależne od schematu

Składają się z zapytań niezależnych od schematu, zgodnych ze składnią ustrukturyzowanego standardu (na przykład SQL , SPARQL ). Zachowana jest składnia i semantyka operatorów, podczas gdy używana jest inna terminologia.

Przykład 1

WYBIERZ ? y { Bill Clinton ma córkę ? x . ?x żonatyTo ?y . }

które odwzorowuje następujące zapytanie SPARQL w słowniku zbioru danych:

  
  
  
  
  

     
    
   PREFIKS  :  <http://dbpedia.org/resource/>  PREFIKS  dbpedia2  :  <http://dbpedia.org/property/>  PREFIKS  dbpedia  :  <http://dbpedia.org/ontology/>  PREFIKS  skos  :  <http: //www.w3.org/2004/02/skos/core#>  PREFIKS  dbo  :  <http://dbpedia.org/ontology/>  WYBIERZ  ?y  {  :  Bill_Clinton  dbpedia  :  dziecko  ?x  .  ?x  dbpedia2  :  małżonek   
  ?y  .  }

Przykład 2

    
            
            
            
            
   WYBIERZ  ?x  {  ?x  to  książka  .  ?x  autorstwa  Williama_Goldmana  .  ?x  ma_strony  ?p  .  FILTR  (  ?p  >  300  )  }

które odwzorowuje następujące zapytanie SPARQL w słowniku zbioru danych:

  
  
  
  
  
            
             
           PREFIKS  rdf  :  <http://www.w3.org/1999/02/22-rdf-syntax-ns#>  PREFIKS  :  <http://dbpedia.org/resource/>  PREFIKS  dbpedia2  :  <http://dbpedia .org/property/>  PREFIKS  dbpedia  :  <http://dbpedia.org/ontology/>  SELECT  ?x  {  ?x  rdf  :  wpisz  dbpedia  :  Książka  .  ?x  dbpedia2  :  autor  :  William_Goldman  .  x  dbpedia   
  
 :  liczbaStron  ?p  .  FILTR  (  ?p  >  300  )  }

Zapytania o słowa kluczowe niezależne od schematu

Składają się z zapytań niezależnych od schematu przy użyciu zapytań dotyczących słów kluczowych. W tym przypadku składnia i semantyka operatorów różnią się od składni zapytań strukturalnych.

Przykład

 „Córka Billa Clintona wyszła za mąż za”

 „Książki Williama Goldmana z ponad 300 stronami”

Złożoność semantyczna

Od 2016 roku koncepcja zapytań niezależnych od schematu jest rozwijana głównie w środowisku akademickim. Większość systemów zapytań niezależnych od schematu została zbadana w kontekście interfejsów języka naturalnego w bazach danych lub w sieci semantycznej . Prace te badają zastosowanie semantycznych technik analizy składniowej w dużych, heterogenicznych i pozbawionych schematów bazach danych. Niedawno w literaturze pojawiło się wyraźniejsze wyodrębnienie koncepcji systemów zapytań i baz danych niezależnych od schematu. Freitas i in. dostarczyć probabilistyczny model semantycznej złożoności mapowania zapytań niezależnych od schematu.