Język znaczników modelu predykcyjnego
Opracowany przez | Roberta Lee Grossmana |
---|---|
Najnowsze wydanie | 4.4 listopada 2019 |
Typ formatu | Modelowanie predykcyjne |
Przedłużony od | XML |
Predictive Model Markup Language ( PMML ) to format wymiany modeli predykcyjnych oparty na XML , opracowany przez dr Roberta Lee Grossmana , ówczesnego dyrektora National Center for Data Mining na Uniwersytecie Illinois w Chicago . PMML umożliwia aplikacjom analitycznym opisywanie i wymianę modeli predykcyjnych tworzonych przez eksplorację danych i algorytmy uczenia maszynowego . Obsługuje popularne modele, takie jak regresja logistyczna i inne sieci neuronowe z wyprzedzeniem . Wersja 0.9 została opublikowana w 1998 roku. Kolejne wersje zostały opracowane przez Data Mining Group.
Ponieważ PMML jest standardem opartym na XML, specyfikacja ma postać schematu XML . Sam PMML jest dojrzałym standardem, a ponad 30 organizacji ogłosiło produkty obsługujące PMML.
Komponenty PMML
Plik PMML można opisać za pomocą następujących składników:
- Nagłówek : zawiera ogólne informacje o dokumencie PMML, takie jak informacje o prawach autorskich do modelu, jego opis oraz informacje o aplikacji użytej do wygenerowania modelu, takie jak nazwa i wersja. Zawiera również atrybut znacznika czasu, który można wykorzystać do określenia daty utworzenia modelu.
- Słownik danych : zawiera definicje wszystkich możliwych zmiennych używanych przez model. To tutaj definiuje się pole jako ciągłe, jakościowe lub porządkowe (optype atrybutu). W zależności od tej definicji definiowane są następnie odpowiednie zakresy wartości oraz typ danych (np. string lub double).
-
Transformacje danych : transformacje pozwalają na mapowanie danych użytkownika w bardziej pożądaną formę do wykorzystania w modelu eksploracji. PMML definiuje kilka rodzajów prostych transformacji danych.
- Normalizacja: mapowanie wartości na liczby, dane wejściowe mogą być ciągłe lub dyskretne.
- Dyskretyzacja: mapuj wartości ciągłe na wartości dyskretne.
- Mapowanie wartości: mapuj wartości dyskretne na wartości dyskretne.
- Funkcje (niestandardowe i wbudowane): obliczają wartość, stosując funkcję do jednego lub większej liczby parametrów.
- Agregacja: używana do podsumowywania lub gromadzenia grup wartości.
-
Model : zawiera definicję modelu eksploracji danych. Np. wielowarstwowa sieć neuronowa ze sprzężeniem zwrotnym jest reprezentowana w PMML przez element „NeuralNetwork”, który zawiera atrybuty takie jak:
- Nazwa modelu (atrybut modelName)
- Nazwa funkcji (atrybut nazwa_funkcji)
- Nazwa algorytmu (nazwa algorytmu atrybutu)
- Funkcja aktywacji (atrybut aktywacjaFunkcja)
- Liczba warstw (atrybut numberOfLayers)
- Po tych informacjach następują trzy rodzaje warstw neuronowych, które określają architekturę modelu sieci neuronowej reprezentowanego w dokumencie PMML. Te atrybuty to NeuralInputs, NeuralLayer i NeuralOutputs. Oprócz sieci neuronowych, PMML pozwala na reprezentację wielu innych typów modeli, w tym maszyn wektorów nośnych , reguł asocjacyjnych , naiwnego klasyfikatora Bayesa , modeli klastrów, modeli tekstowych , drzew decyzyjnych i różnych modeli regresji .
-
Mining Schema : lista wszystkich pól używanych w modelu. Może to być podzbiór pól zdefiniowanych w słowniku danych. Zawiera szczegółowe informacje o każdym polu, takie jak:
- Nazwa (nazwa atrybutu): musi odnosić się do pola w słowniku danych
- Typ użycia (atrybut useType): określa sposób, w jaki pole ma być używane w modelu. Typowe wartości to: aktywne, przewidywane i uzupełniające. Przewidywane zmienne to te, których wartości są przewidywane przez model.
- Obróbka wartości odstających (atrybuty wartości odstających): definiuje stosowane traktowanie wartości odstających. W PMML wartości odstające można traktować jako wartości brakujące, wartości ekstremalne (na podstawie definicji wysokich i niskich wartości dla określonej zmiennej) lub takie, jakie są.
- Zasady zastępowania brakujących wartości (atrybut missingValueReplacement): jeśli ten atrybut jest określony, wówczas brakująca wartość jest automatycznie zastępowana przez podane wartości.
- Leczenie braków danych (atrybut missingValueTreatment): wskazuje, w jaki sposób uzyskano zastąpienie brakujących danych (np. jako wartość, średnia lub mediana).
- Cele : umożliwia przetwarzanie końcowe przewidywanej wartości w formacie skalowania, jeśli dane wyjściowe modelu są ciągłe. Cele mogą być również używane do zadań klasyfikacyjnych. W tym przypadku atrybut priorProbability określa prawdopodobieństwo domyślne dla odpowiedniej kategorii docelowej. Jest używany, jeśli sama logika przewidywania nie dała wyniku. Może się to zdarzyć, np. jeśli brakuje wartości wejściowej i nie ma innej metody leczenia brakujących wartości.
- Wyjście : ten element może być użyty do nazwania wszystkich pożądanych zmiennych wyjściowych oczekiwanych od modelu. Są to cechy przewidywanej zmiennej, a więc zazwyczaj sama przewidywana wartość, prawdopodobieństwo, powinowactwo klastrów (w przypadku modeli grupowania), błąd standardowy itp. Najnowsza wersja PMML, PMML 4.1, rozszerzone dane wyjściowe umożliwiające ogólne przetwarzanie końcowe modeli wyjściowych. W PMML 4.1 wszystkie wbudowane i niestandardowe funkcje, które pierwotnie były dostępne tylko do przetwarzania wstępnego, stały się również dostępne do przetwarzania końcowego.
PMML 4.0, 4.1, 4.2 i 4.3
PMML 4.0 został wydany 16 czerwca 2009 roku.
Przykłady nowych funkcji obejmowały:
- Ulepszone możliwości przetwarzania wstępnego: Dodatki do wbudowanych funkcji obejmują szereg operacji boolowskich i funkcję If-Then-Else .
- szeregów czasowych : nowe modele wygładzania wykładniczego ; również miejsca dla ARIMA , dekompozycji trendów sezonowych i szacowania gęstości widmowej , które mają być obsługiwane w najbliższej przyszłości.
- Model Explanation: Zapisywanie oceny i miar wydajności modelu w samym pliku PMML.
- Modele wielokrotne: Możliwości składu modeli, zespołów i segmentacji (np. łączenie regresji i drzew decyzyjnych).
- Rozszerzenia istniejących elementów: Dodanie wieloklasowej klasyfikacji dla maszyn wektorów nośnych , ulepszona reprezentacja reguł asocjacyjnych oraz dodanie modeli regresji Coxa .
PMML 4.1 został wydany 31 grudnia 2011 r.
Nowe funkcje obejmowały:
- Nowe elementy modelu do reprezentowania kart wyników, k-najbliższych sąsiadów ( KNN ) i modeli bazowych.
- Uproszczenie wielu modeli. W PMML 4.1 ten sam element jest używany do reprezentowania segmentacji modelu, zespołu i łączenia.
- Ogólna definicja zakresu pola i nazw pól.
- Nowy atrybut określający dla każdego elementu modelu, czy model jest gotowy do wdrożenia produkcyjnego.
- Ulepszone możliwości przetwarzania końcowego (za pośrednictwem elementu Output).
PMML 4.2 został wydany 28 lutego 2014 r.
Nowe funkcje obejmują:
- Transformacje: Nowe elementy implementacji eksploracji tekstu
- Nowe wbudowane funkcje do implementacji wyrażeń regularnych: dopasowywanie, konkatowanie i zastępowanie
- Uproszczone dane wyjściowe do przetwarzania końcowego
- Ulepszenia elementów modelu Scorecard i Naive Bayes
PMML 4.3 został wydany 23 sierpnia 2016 r.
Nowe funkcje obejmują:
- Nowe typy modeli:
- Proces Gaussa
- Sieć bayesowska
- Nowe wbudowane funkcje
- Wyjaśnienia użycia
- Ulepszenia dokumentacji
Wersja 4.4 została wydana w listopadzie 2019 roku.
Historia wydania
Wersja | Data wydania |
---|---|
Wersja 0.7 | lipiec 1997 r |
Wersja 0.9 | lipiec 1998 r |
Wersja 1.0 | sierpień 1999 |
Wersja 1.1 | sierpień 2000 |
Wersja 2.0 | sierpień 2001 |
Wersja 2.1 | marzec 2003 r |
Wersja 3.0 | październik 2004 |
Wersja 3.1 | grudzień 2005 |
Wersja 3.2 | maj 2007 |
Wersja 4.0 | czerwiec 2009 |
Wersja 4.1 | grudzień 2011 |
Wersja 4.2 | Luty 2014 |
Wersja 4.2.1 | marzec 2015 r |
Wersja 4.3 | sierpień 2016 r |
Wersja 4.4 | listopad 2019 r |
Grupa eksploracji danych
Data Mining Group to konsorcjum zarządzane przez Center for Computational Science Research, Inc., organizację non-profit założoną w 2008 roku. Data Mining Group opracowała również standard o nazwie Portable Format for Analytics lub PFA, który jest uzupełnieniem PMML.
Zobacz też
Linki zewnętrzne
- Wstępne przetwarzanie danych w PMML i ADAPA - elementarz
- Film przedstawiający prezentację PMML dr Alexa Guazzellego dla grupy ACM Data Mining (hostowana przez LinkedIn)
- Specyfikacja PMML 3.2
- Specyfikacja PMML 4.0
- Specyfikacja PMML 4.1
- Specyfikacja PMML 4.2.1
- Specyfikacja PMML 4.4
- Reprezentowanie rozwiązań predykcyjnych w PMML: przejście od surowych danych do przewidywań — artykuł opublikowany w serwisie WWW IBM developerWorks.
- Analityka predykcyjna w opiece zdrowotnej: znaczenie otwartych standardów — artykuł opublikowany w serwisie WWW IBM developerWorks.