Wykrywanie metadanych

W metadanych wykrywanie metadanych (również zbieranie metadanych ) to proces wykorzystywania zautomatyzowanych narzędzi do odkrywania semantyki elementu danych w zbiorach danych. Proces ten zwykle kończy się zestawem odwzorowań między elementami źródła danych a scentralizowanym rejestrem metadanych . Wykrywanie metadanych jest również znane jako skanowanie metadanych.

Formaty źródeł danych do wykrywania metadanych

Zbiory danych mogą mieć różne formy, w tym:

  1. Relacyjne bazy danych
  2. Bazy danych NoSQL
  3. Arkusze kalkulacyjne
  4. Pliki XML
  5. usługi internetowe
  6. Kod źródłowy oprogramowania , taki jak klasy Fortran, Jovial, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, C# lub C++ oraz tysiące innych języków oprogramowania
  7. Dokumenty tekstowe bez struktury, takie jak pliki Microsoft Word lub PDF

Taksonomia algorytmów dopasowywania metadanych

Istnieją różne kategorie automatycznego wykrywania metadanych:

Dopasowanie leksykalne

  1. Dopasowanie ścisłe - gdzie powiązania elementów danych są tworzone na podstawie dokładnej nazwy kolumny w bazie danych, nazwy elementu XML lub etykiety na ekranie. Na przykład, jeśli kolumna bazy danych ma nazwę „PersonBirthDate”, a element danych w rejestrze metadanych ma również nazwę „PersonBirthDate”, zautomatyzowane narzędzia mogą wywnioskować, że kolumna bazy danych ma taką samą semantykę (znaczenie) jak element danych w rejestrze metadanych.
  2. Dopasowanie synonimów — narzędzie wykrywania otrzymuje nie tylko pojedynczą nazwę, ale zestaw synonimów.
  3. Dopasowanie wzorca - w tym przypadku narzędzie otrzymuje zestaw wzorców leksykalnych, które może dopasować. Na przykład narzędzia mogą wyszukiwać „*gender*” lub „*sex*”

Dopasowanie semantyczne

Dopasowywanie semantyczne próbuje wykorzystać semantykę do powiązania danych docelowych z zarejestrowanymi elementami danych .

  1. Podobieństwo semantyczne - W tym algorytmie, który opiera się na bazie danych słów, używana jest bliskość pojęciowa. Na przykład WordNet może uszeregować, jak bliskie są sobie słowa pod względem koncepcyjnym. Na przykład terminy „Osoba”, „Osoba fizyczna” i „Człowiek” mogą być bardzo podobnymi pojęciami.

Dopasowanie statystyczne

Dopasowywanie statystyczne wykorzystuje statystyki dotyczące samych danych źródeł danych w celu uzyskania podobieństw z zarejestrowanymi elementami danych.

  1. Analiza wartości odrębnych — analizując wszystkie wartości odrębne w kolumnie, można dokonać podobieństwa do zarejestrowanego elementu danych. Na przykład, jeśli kolumna ma tylko dwie różne wartości „mężczyzna” i „kobieta”, można to zmapować na „PersonGenderCode”.
  2. Analiza rozkładu danych — analizując rozkład wartości w pojedynczej kolumnie i porównując ten rozkład ze znanymi elementami danych, można wywnioskować powiązanie semantyczne.

Sprzedawcy

Następujący dostawcy (wymienieni w kolejności alfabetycznej) dostarczają oprogramowanie i rozwiązania do wykrywania metadanych i mapowania metadanych

Badania

Zobacz też

Cytaty

Źródła