Język znaczników modelu predykcyjnego

PMML Logo.png
Język znaczników modelu predykcyjnego
Opracowany przez Roberta Lee Grossmana
Najnowsze wydanie

4.4 listopada 2019 ; 3 lata temu ( 2019-11 )
Typ formatu Modelowanie predykcyjne
Przedłużony od XML

Predictive Model Markup Language ( PMML ) to format wymiany modeli predykcyjnych oparty na XML , opracowany przez dr Roberta Lee Grossmana , ówczesnego dyrektora National Center for Data Mining na Uniwersytecie Illinois w Chicago . PMML umożliwia aplikacjom analitycznym opisywanie i wymianę modeli predykcyjnych tworzonych przez eksplorację danych i algorytmy uczenia maszynowego . Obsługuje popularne modele, takie jak regresja logistyczna i inne sieci neuronowe z wyprzedzeniem . Wersja 0.9 została opublikowana w 1998 roku. Kolejne wersje zostały opracowane przez Data Mining Group.

Ponieważ PMML jest standardem opartym na XML, specyfikacja ma postać schematu XML . Sam PMML jest dojrzałym standardem, a ponad 30 organizacji ogłosiło produkty obsługujące PMML.

Komponenty PMML

Plik PMML można opisać za pomocą następujących składników:

  • Nagłówek : zawiera ogólne informacje o dokumencie PMML, takie jak informacje o prawach autorskich do modelu, jego opis oraz informacje o aplikacji użytej do wygenerowania modelu, takie jak nazwa i wersja. Zawiera również atrybut znacznika czasu, który można wykorzystać do określenia daty utworzenia modelu.
  • Słownik danych : zawiera definicje wszystkich możliwych zmiennych używanych przez model. To tutaj definiuje się pole jako ciągłe, jakościowe lub porządkowe (optype atrybutu). W zależności od tej definicji definiowane są następnie odpowiednie zakresy wartości oraz typ danych (np. string lub double).
  • Transformacje danych : transformacje pozwalają na mapowanie danych użytkownika w bardziej pożądaną formę do wykorzystania w modelu eksploracji. PMML definiuje kilka rodzajów prostych transformacji danych.
    • Normalizacja: mapowanie wartości na liczby, dane wejściowe mogą być ciągłe lub dyskretne.
    • Dyskretyzacja: mapuj wartości ciągłe na wartości dyskretne.
    • Mapowanie wartości: mapuj wartości dyskretne na wartości dyskretne.
    • Funkcje (niestandardowe i wbudowane): obliczają wartość, stosując funkcję do jednego lub większej liczby parametrów.
    • Agregacja: używana do podsumowywania lub gromadzenia grup wartości.
  • Model : zawiera definicję modelu eksploracji danych. Np. wielowarstwowa sieć neuronowa ze sprzężeniem zwrotnym jest reprezentowana w PMML przez element „NeuralNetwork”, który zawiera atrybuty takie jak:
    • Nazwa modelu (atrybut modelName)
    • Nazwa funkcji (atrybut nazwa_funkcji)
    • Nazwa algorytmu (nazwa algorytmu atrybutu)
    • Funkcja aktywacji (atrybut aktywacjaFunkcja)
    • Liczba warstw (atrybut numberOfLayers)
Po tych informacjach następują trzy rodzaje warstw neuronowych, które określają architekturę modelu sieci neuronowej reprezentowanego w dokumencie PMML. Te atrybuty to NeuralInputs, NeuralLayer i NeuralOutputs. Oprócz sieci neuronowych, PMML pozwala na reprezentację wielu innych typów modeli, w tym maszyn wektorów nośnych , reguł asocjacyjnych , naiwnego klasyfikatora Bayesa , modeli klastrów, modeli tekstowych , drzew decyzyjnych i różnych modeli regresji .
  • Mining Schema : lista wszystkich pól używanych w modelu. Może to być podzbiór pól zdefiniowanych w słowniku danych. Zawiera szczegółowe informacje o każdym polu, takie jak:
    • Nazwa (nazwa atrybutu): musi odnosić się do pola w słowniku danych
    • Typ użycia (atrybut useType): określa sposób, w jaki pole ma być używane w modelu. Typowe wartości to: aktywne, przewidywane i uzupełniające. Przewidywane zmienne to te, których wartości są przewidywane przez model.
    • Obróbka wartości odstających (atrybuty wartości odstających): definiuje stosowane traktowanie wartości odstających. W PMML wartości odstające można traktować jako wartości brakujące, wartości ekstremalne (na podstawie definicji wysokich i niskich wartości dla określonej zmiennej) lub takie, jakie są.
    • Zasady zastępowania brakujących wartości (atrybut missingValueReplacement): jeśli ten atrybut jest określony, wówczas brakująca wartość jest automatycznie zastępowana przez podane wartości.
    • Leczenie braków danych (atrybut missingValueTreatment): wskazuje, w jaki sposób uzyskano zastąpienie brakujących danych (np. jako wartość, średnia lub mediana).
  • Cele : umożliwia przetwarzanie końcowe przewidywanej wartości w formacie skalowania, jeśli dane wyjściowe modelu są ciągłe. Cele mogą być również używane do zadań klasyfikacyjnych. W tym przypadku atrybut priorProbability określa prawdopodobieństwo domyślne dla odpowiedniej kategorii docelowej. Jest używany, jeśli sama logika przewidywania nie dała wyniku. Może się to zdarzyć, np. jeśli brakuje wartości wejściowej i nie ma innej metody leczenia brakujących wartości.
  • Wyjście : ten element może być użyty do nazwania wszystkich pożądanych zmiennych wyjściowych oczekiwanych od modelu. Są to cechy przewidywanej zmiennej, a więc zazwyczaj sama przewidywana wartość, prawdopodobieństwo, powinowactwo klastrów (w przypadku modeli grupowania), błąd standardowy itp. Najnowsza wersja PMML, PMML 4.1, rozszerzone dane wyjściowe umożliwiające ogólne przetwarzanie końcowe modeli wyjściowych. W PMML 4.1 wszystkie wbudowane i niestandardowe funkcje, które pierwotnie były dostępne tylko do przetwarzania wstępnego, stały się również dostępne do przetwarzania końcowego.

PMML 4.0, 4.1, 4.2 i 4.3

PMML 4.0 został wydany 16 czerwca 2009 roku.

Przykłady nowych funkcji obejmowały:

PMML 4.1 został wydany 31 grudnia 2011 r.

Nowe funkcje obejmowały:

  • Nowe elementy modelu do reprezentowania kart wyników, k-najbliższych sąsiadów ( KNN ) i modeli bazowych.
  • Uproszczenie wielu modeli. W PMML 4.1 ten sam element jest używany do reprezentowania segmentacji modelu, zespołu i łączenia.
  • Ogólna definicja zakresu pola i nazw pól.
  • Nowy atrybut określający dla każdego elementu modelu, czy model jest gotowy do wdrożenia produkcyjnego.
  • Ulepszone możliwości przetwarzania końcowego (za pośrednictwem elementu Output).

PMML 4.2 został wydany 28 lutego 2014 r.

Nowe funkcje obejmują:

  • Transformacje: Nowe elementy implementacji eksploracji tekstu
  • Nowe wbudowane funkcje do implementacji wyrażeń regularnych: dopasowywanie, konkatowanie i zastępowanie
  • Uproszczone dane wyjściowe do przetwarzania końcowego
  • Ulepszenia elementów modelu Scorecard i Naive Bayes

PMML 4.3 został wydany 23 sierpnia 2016 r.

Nowe funkcje obejmują:

  • Nowe typy modeli:
    • Proces Gaussa
    • Sieć bayesowska
  • Nowe wbudowane funkcje
  • Wyjaśnienia użycia
  • Ulepszenia dokumentacji

Wersja 4.4 została wydana w listopadzie 2019 roku.

Historia wydania

Wersja Data wydania
Wersja 0.7 lipiec 1997 r
Wersja 0.9 lipiec 1998 r
Wersja 1.0 sierpień 1999
Wersja 1.1 sierpień 2000
Wersja 2.0 sierpień 2001
Wersja 2.1 marzec 2003 r
Wersja 3.0 październik 2004
Wersja 3.1 grudzień 2005
Wersja 3.2 maj 2007
Wersja 4.0 czerwiec 2009
Wersja 4.1 grudzień 2011
Wersja 4.2 Luty 2014
Wersja 4.2.1 marzec 2015 r
Wersja 4.3 sierpień 2016 r
Wersja 4.4 listopad 2019 r

Grupa eksploracji danych

Data Mining Group to konsorcjum zarządzane przez Center for Computational Science Research, Inc., organizację non-profit założoną w 2008 roku. Data Mining Group opracowała również standard o nazwie Portable Format for Analytics lub PFA, który jest uzupełnieniem PMML.

Zobacz też

Linki zewnętrzne