Błąd braku towaru
Część serii poświęconej |
uczeniu maszynowemu i eksploracji danych |
---|
Out-of-bag ( OOB ) , zwany także out-of-bag oszacowaniem , to metoda pomiaru błędu przewidywania losowych lasów , wzmocnionych drzew decyzyjnych i innych modeli uczenia maszynowego wykorzystujących agregację bootstrap (pakowanie). Pakowanie wykorzystuje podpróbkowanie z zastępowaniem w celu utworzenia próbek szkoleniowych, z których model może się uczyć. Błąd OOB to średni błąd predykcji na każdej próbie szkoleniowej x i , przy użyciu tylko drzew, które nie miały x i w ich próbce bootstrap.
Agregacja Bootstrap pozwala na zdefiniowanie szacunkowego oszacowania poprawy wydajności prognozowania poprzez ocenę prognoz dotyczących tych obserwacji, które nie zostały wykorzystane w budowaniu następnego podstawowego ucznia.
Gotowy zestaw danych
Podczas przeprowadzania agregacji metodą ładowania początkowego tworzone są dwa niezależne zestawy. Jeden zestaw, próbka ładowania początkowego, to dane wybrane do „w torebce” przez próbkowanie z wymianą. Zestaw out-of-bag to wszystkie dane, które nie zostały wybrane w procesie pobierania próbek.
Kiedy ten proces jest powtarzany, na przykład podczas budowania losowego lasu , powstaje wiele próbek ładowania początkowego i zestawów OOB. Zestawy OOB można agregować w jeden zestaw danych, ale każda próbka jest uważana za „out-of-bag” tylko w przypadku drzew, które nie uwzględniają jej w próbce ładowania początkowego. Poniższy rysunek pokazuje, że dla każdego pobranego worka dane są podzielone na dwie grupy.
Ten przykład pokazuje, jak workowanie może być użyte w kontekście diagnozowania choroby. Zbiór pacjentów jest oryginalnym zbiorem danych, ale każdy model jest szkolony tylko przez pacjentów w swojej torbie. Pacjenci w każdym zestawie gotowym do użycia mogą być wykorzystani do przetestowania odpowiednich modeli. Test powinien rozważyć, czy model może dokładnie określić, czy pacjent ma chorobę.
Obliczanie błędu out-of-bag
Ponieważ każdy gotowy zestaw nie jest używany do trenowania modelu, jest to dobry test wydajności modelu. Konkretne obliczenie błędu OOB zależy od implementacji modelu, ale ogólne obliczenia są następujące.
- Znajdź wszystkie modele (lub drzewa, w przypadku losowego lasu ), które nie są trenowane przez instancję OOB.
- Weź głosowanie większościowe na podstawie wyniku tych modeli dla instancji OOB w porównaniu z prawdziwą wartością instancji OOB.
- Skompiluj błąd OOB dla wszystkich instancji w zbiorze danych OOB.
Proces pakowania można dostosować do potrzeb modelu. Aby zapewnić dokładny model, rozmiar próby uczącej metodą bootstrap powinien być zbliżony do rozmiaru oryginalnego zestawu. Należy również wziąć pod uwagę liczbę iteracji (drzew) modelu (lasu), aby znaleźć prawdziwy błąd OOB. Błąd OOB ustabilizuje się po wielu iteracjach, więc dobrym pomysłem jest rozpoczęcie od dużej liczby iteracji.
W przykładzie po prawej stronie błąd OOB można znaleźć przy użyciu powyższej metody po skonfigurowaniu lasu.
Porównanie z walidacją krzyżową
Błąd out-of-bag i walidacja krzyżowa (CV) to różne metody pomiaru oszacowania błędu modelu uczenia maszynowego . W wielu iteracjach obie metody powinny dawać bardzo podobne oszacowanie błędu. Oznacza to, że gdy błąd OOB ustabilizuje się, zbiegnie się do sprawdzania krzyżowego (w szczególności pomijania sprawdzania krzyżowego). Zaletą metody OOB jest to, że wymaga mniej obliczeń i umożliwia testowanie modelu w trakcie jego uczenia.
Dokładność i spójność
Błąd out-of-bag jest często używany do szacowania błędów w losowych lasach , ale zgodnie z wnioskiem z badania przeprowadzonego przez Silke Janitza i Romana Hornunga, błąd out-of-bag jest przeszacowany w ustawieniach, które obejmują taką samą liczbę obserwacji z wszystkie klasy odpowiedzi (próby zrównoważone), małe rozmiary próbek, duża liczba zmiennych predykcyjnych, mała korelacja między predyktorami i słabe efekty.