Bliższa optymalizacja polityki

Proximal Policy Optimization (PPO) to rodzina bezmodelowych algorytmów uczenia się przez wzmacnianie opracowana w OpenAI w 2017 roku. Algorytmy PPO to metody gradientu polityki , co oznacza, że ​​przeszukują przestrzeń polityk, a nie przypisują wartości parom stan-akcja.

Algorytmy PPO mają pewne zalety algorytmów optymalizacji polityki regionu zaufania (TRPO), ale są prostsze w implementacji, bardziej ogólne i mają większą złożoność próbki. Dokonuje się tego za pomocą innej funkcji celu.

Zobacz też

Linki zewnętrzne