Wykrywanie metadanych
W metadanych wykrywanie metadanych (również zbieranie metadanych ) to proces wykorzystywania zautomatyzowanych narzędzi do odkrywania semantyki elementu danych w zbiorach danych. Proces ten zwykle kończy się zestawem odwzorowań między elementami źródła danych a scentralizowanym rejestrem metadanych . Wykrywanie metadanych jest również znane jako skanowanie metadanych.
Formaty źródeł danych do wykrywania metadanych
Zbiory danych mogą mieć różne formy, w tym:
- Relacyjne bazy danych
- Bazy danych NoSQL
- Arkusze kalkulacyjne
- Pliki XML
- usługi internetowe
- Kod źródłowy oprogramowania , taki jak klasy Fortran, Jovial, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, C# lub C++ oraz tysiące innych języków oprogramowania
- Dokumenty tekstowe bez struktury, takie jak pliki Microsoft Word lub PDF
Taksonomia algorytmów dopasowywania metadanych
Istnieją różne kategorie automatycznego wykrywania metadanych:
Dopasowanie leksykalne
- Dopasowanie ścisłe - gdzie powiązania elementów danych są tworzone na podstawie dokładnej nazwy kolumny w bazie danych, nazwy elementu XML lub etykiety na ekranie. Na przykład, jeśli kolumna bazy danych ma nazwę „PersonBirthDate”, a element danych w rejestrze metadanych ma również nazwę „PersonBirthDate”, zautomatyzowane narzędzia mogą wywnioskować, że kolumna bazy danych ma taką samą semantykę (znaczenie) jak element danych w rejestrze metadanych.
- Dopasowanie synonimów — narzędzie wykrywania otrzymuje nie tylko pojedynczą nazwę, ale zestaw synonimów.
- Dopasowanie wzorca - w tym przypadku narzędzie otrzymuje zestaw wzorców leksykalnych, które może dopasować. Na przykład narzędzia mogą wyszukiwać „*gender*” lub „*sex*”
Dopasowanie semantyczne
Dopasowywanie semantyczne próbuje wykorzystać semantykę do powiązania danych docelowych z zarejestrowanymi elementami danych .
- Podobieństwo semantyczne - W tym algorytmie, który opiera się na bazie danych słów, używana jest bliskość pojęciowa. Na przykład WordNet może uszeregować, jak bliskie są sobie słowa pod względem koncepcyjnym. Na przykład terminy „Osoba”, „Osoba fizyczna” i „Człowiek” mogą być bardzo podobnymi pojęciami.
Dopasowanie statystyczne
Dopasowywanie statystyczne wykorzystuje statystyki dotyczące samych danych źródeł danych w celu uzyskania podobieństw z zarejestrowanymi elementami danych.
- Analiza wartości odrębnych — analizując wszystkie wartości odrębne w kolumnie, można dokonać podobieństwa do zarejestrowanego elementu danych. Na przykład, jeśli kolumna ma tylko dwie różne wartości „mężczyzna” i „kobieta”, można to zmapować na „PersonGenderCode”.
- Analiza rozkładu danych — analizując rozkład wartości w pojedynczej kolumnie i porównując ten rozkład ze znanymi elementami danych, można wywnioskować powiązanie semantyczne.
Sprzedawcy
Następujący dostawcy (wymienieni w kolejności alfabetycznej) dostarczają oprogramowanie i rozwiązania do wykrywania metadanych i mapowania metadanych
- Atlan (patrz [1] )
- Innowacje BigHand/Esquire (patrz [2] )
- IBM
- Talend
- InfoLibrarian Corporation (patrz [3] )
- Aplikacja bazy danych metadanych MindHARBOR (patrz [4] )
- Octopai — wieloplatformowa automatyzacja wykrywania i zarządzania metadanymi (patrz [5] )
- Revelytix (patrz [6] )
- Systemy Silver Creek (patrz [7] )
- Stratio (patrz Wiarygodność danych jest podstawą odnoszących sukcesy firm )
- Sypherlink: Żniwiarz (patrz [8] )
- Systemy Jednorożca (patrz [9] )
Badania
- Projekt INDUS na Uniwersytecie Stanowym Iowa (patrz [10] )
- Mercury - system zarządzania rozproszonymi metadanymi i wykrywania danych opracowany w Oak Ridge National Laboratory DAAC (patrz [11] )
Zobacz też
- Metadane
- Mapowanie danych
- Hurtownia danych
- Sieć semantyczna
- Specyfikacja metadanych wykrywania obrony
Cytaty
Źródła
- Massive Data Analysis Systems , San Diego Supercomputer Center, czerwiec 1997
- Oficjalny dokument IBM dotyczący wykrywania metadanych przedsiębiorstwa
- Biała księga dotycząca zarządzania metadanymi — autorstwa Esquire Innovations