Dane częściowo ustrukturyzowane

Dane częściowo ustrukturyzowane to forma danych ustrukturyzowanych , która nie jest zgodna z tabelaryczną strukturą modeli danych związanych z relacyjnymi bazami danych lub innymi formami tabel danych , ale mimo to zawiera znaczniki lub inne znaczniki do oddzielania elementów semantycznych i wymuszania hierarchii rekordów i pól w ramach dane. Dlatego jest również znany jako samoopisująca .

W danych częściowo ustrukturyzowanych jednostki należące do tej samej klasy mogą mieć różne atrybuty , mimo że są zgrupowane, a kolejność atrybutów nie jest ważna.

Częściowo ustrukturyzowane dane pojawiają się coraz częściej od czasu pojawienia się Internetu, gdzie pełnotekstowe dokumenty i bazy danych nie są już jedynymi formami danych, a różne aplikacje potrzebują medium do wymiany informacji . W obiektowych bazach danych często można znaleźć dane częściowo ustrukturyzowane.

typy

XML

XML , inne języki znaczników, poczta elektroniczna i EDI to formy częściowo ustrukturyzowanych danych. OEM (Object Exchange Model) został stworzony przed XML jako sposób samoopisywania struktury danych. XML został spopularyzowany przez usługi internetowe opracowane z wykorzystaniem SOAP .

Niektóre typy danych opisane tutaj jako „częściowo ustrukturyzowane”, zwłaszcza XML, mają wrażenie, że nie są w stanie zachować rygoru strukturalnego na tym samym poziomie funkcjonalnym, co relacyjne tabele i wiersze. Rzeczywiście, postrzeganie XML jako z natury częściowo ustrukturyzowanego (wcześniej nazywano go „nieustrukturyzowanym”) utrudniało jego użycie w coraz szerszym zakresie aplikacji zorientowanych na dane. Nawet dokumenty, zwykle uważane za uosobienie semi-struktury, mogą być zaprojektowane z praktycznie takim samym rygorem jak schemat bazy danych , wymuszony przez schemat XML i przetwarzane zarówno przez programy komercyjne, jak i niestandardowe, bez ograniczania ich użyteczności dla czytelników.

W związku z tym można mówić o XML, który ma „elastyczną strukturę” zdolną do ukierunkowanego na człowieka przepływu i hierarchii, a także bardzo rygorystycznej struktury elementów i typowania danych.

Jednak pojęcie XML jako „czytelnego dla człowieka” można przyjąć tylko do tej pory. Niektóre implementacje/dialekty XML, takie jak reprezentacja XML zawartości dokumentu programu Microsoft Word, zaimplementowane w pakiecie Office 2007 i nowszych wersjach, wykorzystują dziesiątki, a nawet setki różnych rodzajów znaczników, które odzwierciedlają określoną domenę problemową - w przypadku programu Word , formatowanie na poziomie znaku i akapitu oraz dokumentu, definicje stylów, włączanie cytatów itp. — które są zagnieżdżone w sobie w złożony sposób. Zrozumienie choćby części takiego dokumentu XML poprzez jego przeczytanie, nie mówiąc już o wyłapywaniu błędów w jego strukturze, jest niemożliwe bez bardzo głębokiego uprzedniego zrozumienia konkretnej implementacji XML, wraz z pomocą oprogramowania, które rozumie zastosowany schemat XML. Taki tekst nie jest „zrozumiały dla człowieka”, podobnie jak książka napisana w języku suahili (która używa alfabetu łacińskiego) nie byłaby dla Amerykanina lub Europejczyka z Europy Zachodniej, który nie zna ani słowa w tym języku: znaczniki to symbole, które nie mają znaczenia dla osoba nieznająca domeny.

JSON

JSON lub JavaScript Object Notation to otwarty standardowy format, który używa tekstu czytelnego dla człowieka do przesyłania obiektów danych składających się z par atrybut-wartość. Jest używany głównie do przesyłania danych między serwerem a aplikacją internetową, jako alternatywa dla XML. JSON został spopularyzowany przez serwisy internetowe opracowane z wykorzystaniem REST .

Istnieje nowy rodzaj baz danych, takich jak MongoDB i Couchbase , które przechowują dane natywnie w formacie JSON, wykorzystując zalety częściowo ustrukturyzowanej architektury danych.

Plusy i minusy

Zalety

Programiści utrwalający obiekty z aplikacji w bazie danych nie muszą martwić się o niedopasowanie impedancji obiektowo-relacyjnej , ale często mogą serializować obiekty za pomocą lekkiej biblioteki.
Obsługa zagnieżdżonych lub hierarchicznych danych często upraszcza modele danych reprezentujące złożone relacje między jednostkami.
Obsługa list obiektów upraszcza modele danych, unikając niechcianych tłumaczeń list na relacyjny model danych.

Niedogodności

Tradycyjny relacyjny model danych posiada popularny i gotowy język zapytań SQL .
Skłonny do „wrzucania śmieci, wyrzucania śmieci”; usuwając ograniczenia z modelu danych, jest mniej przewidywania, które jest niezbędne do obsługi aplikacji danych.

Zobacz też

Bibliografia _ „Dane częściowo ustrukturyzowane” (PDF) . Sympozjum na temat zasad systemów baz danych .
^ Grupa baz danych Penn ma projekt danych częściowo ustrukturyzowanych i XML
^ Uniwersytety Stanford Lore DBMS

Linki zewnętrzne

Grupa baz danych UPenn – dane częściowo ustrukturyzowane i XML
Częściowo ustrukturyzowana analiza danych: platforma relacyjna czy Hadoop? przez IBM

[1] Bibliografia _ „Dane częściowo ustrukturyzowane” (PDF) . Sympozjum na temat zasad systemów baz danych .

[2] Grupa baz danych Penn ma projekt danych częściowo ustrukturyzowanych i XML

[3] Uniwersytety Stanford Lore DBMS