Spektrum semantyczne

Spektrum semantyczne do (czasami określane jako widmo ontologiczne lub inteligentne kontinuum danych lub precyzja semantyczna ) to seria coraz bardziej precyzyjnych lub raczej semantycznie wyrazistych definicji elementów danych w reprezentacjach wiedzy , zwłaszcza użytku maszynowego.

Na dolnym końcu spektrum znajduje się proste powiązanie pojedynczego słowa lub frazy z jej definicją. Na najwyższym poziomie znajduje się pełna ontologia , która określa relacje między elementami danych za pomocą precyzyjnych identyfikatorów URI dla relacji i właściwości.

Zwiększona specyficzność wiąże się z większą precyzją i możliwością korzystania z narzędzi do automatycznej integracji systemów, ale także ze zwiększonymi kosztami tworzenia i utrzymywania rejestru metadanych .

Niektóre kroki w spektrum semantycznym obejmują:

  1. glosariusz : Prosta lista terminów i ich definicji. Glosariusz koncentruje się na stworzeniu kompletnej listy terminologii terminów i akronimów specyficznych dla domeny . Przydaje się do tworzenia jasnych i jednoznacznych definicji terminów, a ponieważ można go utworzyć za pomocą prostych narzędzi do edycji tekstu, potrzeba kilku narzędzi technicznych.
  2. kontrolowane słownictwo : Prosta lista terminów, definicji i konwencji nazewnictwa. Słownictwo kontrolowane często ma pewien rodzaj procesu nadzoru związanego z dodawaniem lub usuwaniem definicji elementów danych w celu zapewnienia spójności. Terminy są często definiowane w odniesieniu do siebie.
  3. słownik danych : terminy, definicje, konwencje nazewnictwa i jedna lub więcej reprezentacji elementów danych w systemie komputerowym. Słowniki danych często definiują typy danych, sprawdzanie poprawności, takie jak wyliczone wartości, oraz formalne definicje każdej z wyliczonych wartości.
  4. model danych : terminy, definicje, konwencje nazewnictwa, reprezentacje i jedna lub więcej reprezentacji elementów danych, a także początek specyfikacji relacji między elementami danych, w tym abstrakcje i kontenery.
  5. taksonomia : Kompletny model danych w hierarchii dziedziczenia, w której wszystkie elementy danych dziedziczą swoje zachowania z pojedynczego „super elementu danych”. Różnica między modelem danych a formalną taksonomią polega na rozmieszczeniu elementów danych w formalnej strukturze drzewa, w której każdy element w drzewie jest formalnie zdefiniowanym pojęciem z powiązanymi właściwościami.
  6. ontologia : kompletna, czytelna dla maszyny specyfikacja konceptualizacji przy użyciu identyfikatorów URI (a następnie IRI ) dla wszystkich elementów danych, właściwości i typów relacji. Standardowym językiem W3C do reprezentacji ontologii jest Web Ontology Language (OWL). Ontologie często zawierają formalne reguły biznesowe utworzone w dyskretnych instrukcjach logicznych, które łączą ze sobą elementy danych.

Typowe pytania do określenia precyzji semantycznej

Poniżej znajduje się lista pytań, które mogą pojawić się przy określaniu precyzji semantycznej.

poprawność
W jaki sposób można wymusić poprawność składni i semantyki? Czy narzędzia (takie jak XML Schema ) są łatwo dostępne do sprawdzania poprawności składni wymiany danych?
adekwatność/ekspresyjność/zakres
Czy system reprezentuje wszystko, co ma praktyczne zastosowanie do tego celu? Czy kładzie się nacisk na dane, które są uzewnętrzniane (ujawniane lub przesyłane między systemami)?
wydajność
Jak skutecznie można przeszukiwać/przeszukiwać reprezentację i ewentualnie uzasadniać ?
złożoność
Jak stroma jest krzywa uczenia się do definiowania nowych pojęć, dopytywania o nie lub ograniczania ich? czy istnieją odpowiednie narzędzia do uproszczenia typowych przepływów pracy? (Zobacz też: edytor ontologii )
przekładalność
Czy reprezentacja może być łatwo przekształcona (np. poprzez transformację opartą na słownictwie ) na reprezentację ekwiwalentną, tak aby zapewnić równoważność semantyczną ?

Wyznaczanie położenia w widmie semantycznym

Obecnie wiele organizacji buduje rejestry metadanych do przechowywania definicji danych i publikowania metadanych . Często pojawia się pytanie, gdzie znajdują się one w spektrum semantycznym. Aby określić, gdzie znajdują się twoje systemy, często przydatne są niektóre z poniższych pytań.

  1. Czy istnieje scentralizowany glosariusz terminów dotyczących przedmiotu?
  2. Czy glosariusz terminów zawiera dokładne definicje każdego terminu?
  3. Czy istnieje centralne repozytorium do przechowywania elementów danych , które zawiera informacje o typach danych?
  4. Czy istnieje proces zatwierdzania związany z tworzeniem i zmianami elementów danych?
  5. Czy zakodowane elementy danych są w pełni wyliczone? Czy każde wyliczenie ma pełną definicję?
  6. Czy istnieje proces usuwania zduplikowanych lub zbędnych elementów danych z rejestru metadanych?
  7. Czy istnieje jeden lub więcej schematów klasyfikacji używanych do klasyfikowania elementów danych?
  8. Czy wymiany dokumentów i usługi internetowe są tworzone przy użyciu elementów danych?
  9. Czy centralny rejestr metadanych może być używany jako część architektury opartej na modelach ?
  10. Czy personel jest przeszkolony w wydobywaniu elementów danych, które można ponownie wykorzystać w strukturach metadanych?

Strategiczny charakter semantyki

Obecnie znaczna część sieci World Wide Web jest przechowywana w hipertekstowym języku znaczników . Wyszukiwarki są poważnie utrudnione przez niezdolność do zrozumienia znaczenia publikowanych stron internetowych. Te ograniczenia doprowadziły do ​​powstania sieci semantycznej .

W przeszłości wiele organizacji, które tworzyły niestandardowe aplikacje bazodanowe, korzystało z odizolowanych zespołów programistów, które formalnie nie publikowały swoich definicji danych. Zespoły te często korzystały z wewnętrznych definicji danych, które były niekompatybilne z innymi systemami komputerowymi. To sprawiło, że integracja aplikacji korporacyjnych i magazynowanie danych były niezwykle trudne i kosztowne. Obecnie wiele organizacji wymaga, aby zespoły sprawdzały scentralizowany rejestr danych przed utworzeniem nowych aplikacji.

Stanowisko osoby odpowiedzialnej za koordynację danych organizacji to Architekt danych .

Historia

Pierwsza wzmianka o tym terminie pojawiła się w Panelu Ontologii AAAI w 1999 roku . Panel został zorganizowany przez Chrisa Welty'ego, który za namową Fritza Lehmanna i we współpracy z panelistami (Fritzem, Mikiem Uscholdem , Mikiem Gruningerem i Deborah McGuinness ) opracował „spektrum” rodzajów systemów informacyjnych, które były czas, określane jako ontologie. Obraz „spektrum ontologii” pojawił się drukiem we wstępie do Formalnej ontologii i systemów informacyjnych: Proceedings of the 2001 Conference . Spektrum ontologii zostało również przedstawione w przemówieniu Deborah McGuinness na spotkaniu Semantics for the Web w 2000 roku w Dagstuhl. McGuinness stworzył artykuł opisujący punkty w tym widmie, które pojawiły się w książce, która powstała (dużo później) z tych warsztatów, zatytułowanej „Spinning the Semantic Web”. Później Leo Obrst rozszerzył widmo na dwa wymiary (które technicznie nie jest już widmem) i dodał dużo więcej szczegółów, co zostało zawarte w jego książce The Semantic Web: A Guide to the Future of XML, Web Services, and Zarządzanie wiedzą.

Koncepcja precyzji semantycznej w systemach biznesowych została spopularyzowana przez Dave'a McComba w jego książce Semantics in Business Systems: The Savvy Managers Guide opublikowanej w 2003 roku, w której często używa terminu semantyczna precyzja .

Ta dyskusja koncentrowała się wokół 10-poziomowej partycji, która obejmowała następujące poziomy (wymienione w kolejności rosnącej precyzji semantycznej):

  1. Prosty katalog elementów danych
  2. Słowniczek terminów i definicji
  3. Tezaurusy , wąskie terminy, relacje
  4. Nieformalne relacje „ Jest-a ”.
  5. Formalne relacje „jest-a”.
  6. Instancje formalne
  7. Ramki (właściwości)
  8. Ograniczenia wartości
  9. Rozłączność , odwrotność, część
  10. Ogólne ograniczenia logiczne

Należy zauważyć, że szczególny nacisk położono na dodanie formalnych relacji is-a do widma, które, jak się wydaje, zostały porzucone.

Firma Cerebra również spopularyzowała tę koncepcję, opisując istniejące w przedsiębiorstwie formaty danych pod względem ich zdolności do przechowywania semantycznie precyzyjnych metadanych . Ich lista obejmuje:

  1. HTML
  2. PDF
  3. Dokumenty edytora tekstu
  4. Microsoft Excel
  5. Relacyjne bazy danych
  6. XML
  7. Schemat XMLa
  8. taksonomie
  9. Ontologie

To, co łączy te koncepcje, to możliwość przechowywania informacji z coraz większą precyzją w celu ułatwienia inteligentnym agentom.

Zobacz też