Bliższa optymalizacja polityki
Część serii poświęconej |
uczeniu maszynowemu i eksploracji danych |
---|
Proximal Policy Optimization (PPO) to rodzina bezmodelowych algorytmów uczenia się przez wzmacnianie opracowana w OpenAI w 2017 roku. Algorytmy PPO to metody gradientu polityki , co oznacza, że przeszukują przestrzeń polityk, a nie przypisują wartości parom stan-akcja.
Algorytmy PPO mają pewne zalety algorytmów optymalizacji polityki regionu zaufania (TRPO), ale są prostsze w implementacji, bardziej ogólne i mają większą złożoność próbki. Dokonuje się tego za pomocą innej funkcji celu.