Wykrywanie metadanych

W metadanych wykrywanie metadanych (również zbieranie metadanych ) to proces wykorzystywania zautomatyzowanych narzędzi do odkrywania semantyki elementu danych w zbiorach danych. Proces ten zwykle kończy się zestawem odwzorowań między elementami źródła danych a scentralizowanym rejestrem metadanych . Wykrywanie metadanych jest również znane jako skanowanie metadanych.

Formaty źródeł danych do wykrywania metadanych

Zbiory danych mogą mieć różne formy, w tym:

Relacyjne bazy danych
Bazy danych NoSQL
Arkusze kalkulacyjne
Pliki XML
usługi internetowe
Kod źródłowy oprogramowania , taki jak klasy Fortran, Jovial, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, C# lub C++ oraz tysiące innych języków oprogramowania
Dokumenty tekstowe bez struktury, takie jak pliki Microsoft Word lub PDF

Taksonomia algorytmów dopasowywania metadanych

Istnieją różne kategorie automatycznego wykrywania metadanych:

Dopasowanie leksykalne

Dopasowanie ścisłe - gdzie powiązania elementów danych są tworzone na podstawie dokładnej nazwy kolumny w bazie danych, nazwy elementu XML lub etykiety na ekranie. Na przykład, jeśli kolumna bazy danych ma nazwę „PersonBirthDate”, a element danych w rejestrze metadanych ma również nazwę „PersonBirthDate”, zautomatyzowane narzędzia mogą wywnioskować, że kolumna bazy danych ma taką samą semantykę (znaczenie) jak element danych w rejestrze metadanych.
Dopasowanie synonimów — narzędzie wykrywania otrzymuje nie tylko pojedynczą nazwę, ale zestaw synonimów.
Dopasowanie wzorca - w tym przypadku narzędzie otrzymuje zestaw wzorców leksykalnych, które może dopasować. Na przykład narzędzia mogą wyszukiwać „*gender*” lub „*sex*”

Dopasowanie semantyczne

Dopasowywanie semantyczne próbuje wykorzystać semantykę do powiązania danych docelowych z zarejestrowanymi elementami danych .

Podobieństwo semantyczne - W tym algorytmie, który opiera się na bazie danych słów, używana jest bliskość pojęciowa. Na przykład WordNet może uszeregować, jak bliskie są sobie słowa pod względem koncepcyjnym. Na przykład terminy „Osoba”, „Osoba fizyczna” i „Człowiek” mogą być bardzo podobnymi pojęciami.

Dopasowanie statystyczne

Dopasowywanie statystyczne wykorzystuje statystyki dotyczące samych danych źródeł danych w celu uzyskania podobieństw z zarejestrowanymi elementami danych.

Analiza wartości odrębnych — analizując wszystkie wartości odrębne w kolumnie, można dokonać podobieństwa do zarejestrowanego elementu danych. Na przykład, jeśli kolumna ma tylko dwie różne wartości „mężczyzna” i „kobieta”, można to zmapować na „PersonGenderCode”.
Analiza rozkładu danych — analizując rozkład wartości w pojedynczej kolumnie i porównując ten rozkład ze znanymi elementami danych, można wywnioskować powiązanie semantyczne.

Sprzedawcy

Następujący dostawcy (wymienieni w kolejności alfabetycznej) dostarczają oprogramowanie i rozwiązania do wykrywania metadanych i mapowania metadanych

Atlan (patrz [1] )
Innowacje BigHand/Esquire (patrz [2] )
IBM
Talend
InfoLibrarian Corporation (patrz [3] )
Aplikacja bazy danych metadanych MindHARBOR (patrz [4] )
Octopai — wieloplatformowa automatyzacja wykrywania i zarządzania metadanymi (patrz [5] )
Revelytix (patrz [6] )
Systemy Silver Creek (patrz [7] )
Stratio (patrz Wiarygodność danych jest podstawą odnoszących sukcesy firm )
Sypherlink: Żniwiarz (patrz [8] )
Systemy Jednorożca (patrz [9] )

Badania

Projekt INDUS na Uniwersytecie Stanowym Iowa (patrz [10] )
Mercury - system zarządzania rozproszonymi metadanymi i wykrywania danych opracowany w Oak Ridge National Laboratory DAAC (patrz [11] )

Zobacz też

Cytaty

Źródła

Massive Data Analysis Systems , San Diego Supercomputer Center, czerwiec 1997
Oficjalny dokument IBM dotyczący wykrywania metadanych przedsiębiorstwa
Biała księga dotycząca zarządzania metadanymi — autorstwa Esquire Innovations