Hamiltonian (teoria sterowania)

Hamiltonian jest funkcją używaną do rozwiązania problemu optymalnego sterowania układem dynamicznym . Można to rozumieć jako chwilowy przyrost Lagrange'a wyrażenia problemu, który ma być optymalizowany w określonym przedziale czasu. Zainspirowany, ale różniący się od hamiltonianu mechaniki klasycznej , hamiltonian teorii sterowania optymalnego został opracowany przez Lwa Pontryagina jako część jego zasady maksimum . Pontryagin udowodnił, że warunkiem koniecznym rozwiązania problemu sterowania optymalnego jest taki dobór sterowania, aby optymalizować hamiltonian.

Sformułowanie problemu i definicja hamiltonianu

Rozważ $różniczkowych$ układ równań pierwszego rzędu

{\ Displaystyle {\ kropka {\ mathbf {x}}} (t) = \ mathbf {f} (\ mathbf {x} ( t),\mathbf {u} (t),t)}

gdzie ${\ Displaystyle \ mathbf {x} (t) = \ lewo [x_ {1} (t) ,x_{2}(t),\ldots ,x_{n}(t)\right]^{\mathsf {T}}} oznacza wektor zmiennych stanu,$ a ${\ Displaystyle \ mathbf {u} (t) = \ lewo [u_ {1} (t), u_ {2} (t), \ ldots, u_ { r}(t)\right]^{\mathsf {T}}}$ wektor zmiennych sterujących. Po spełnieniu warunków początkowych ${\ Displaystyle \ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}}$ i steruje ${\ Displaystyle \ mathbf {u} (t )}$ są podane rozwiązania równań różniczkowych, zwane a ${\ Displaystyle \ mathbf {x} (t; \ mathbf {x} _ {0}, t_ {0})}$ , można znaleźć. Problem optymalnej kontroli polega na wybraniu ${r}}$ $}$ R $\ mathcal {U}} \ subseteq \ mathbb {R$ ) tak, że maksymalizuje lub minimalizuje pewien ${\ Displaystyle \ mathbf {x} (t)}$ $}$ celu między czasem początkowym $może$ czasem końcowym ( gdzie $\ Displaystyle t =$ być nieskończonością ). $_$ celem w każdym momencie,

{\ Displaystyle \ max _ {\ mathbf {u} (t)} J = \ int _ {t_ {0}}^{t_{1}}I[\mathbf {x} (t),\mathbf {u} (t),t]\,\mathrm {d} t}

podlega powyższym równaniom ruchu zmiennych stanu. Metoda rozwiązania polega na zdefiniowaniu funkcji pomocniczej znanej jako hamiltonian kontrolny

${\ Displaystyle H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t) \ równoważnik ja (\ mathbf {x} (t), \ mathbf {u} (t),t)+\mathbf {\lambda} ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t ),T)}$

który łączy funkcję celu i równania stanu podobnie jak Lagrange'a w statycznym problemie optymalizacji, tyle że mnożniki $,$ określane zmienne funkcjami czas, a nie stałe.

$)$ znalezienie optymalnej funkcji polityki sterowania, $wraz$ nią optymalnej trajektorii $\ displaystyle \ mathbf {x} ^ {\ ast} (t)}$ , które zgodnie z zasadą maksimum Pontryagina są argumentami maksymalizującymi hamiltonian,

{\ Displaystyle H (\ mathbf {x } ^{\ast }(t),\mathbf {u} ^{\ast }(t),\mathbf {\lambda } (t),t)\geq H(\mathbf {x} (t),\ mathbf {u} (t),\mathbf {\lambda} (t),t)}

u

t) \ w {\ mathcal {U}}}

Warunki konieczne pierwszego rzędu dla maksimum są podane przez

{\ Displaystyle {\ Frac {\ częściowe H (\ mathbf {x} (t), \ mathbf {u} (t ),\mathbf {\lambda } (t),t)}{\partial \mathbf {u} }}=0} która jest zasadą

maksimum,

{\ Displaystyle {\ Frac {\ częściowe H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t)} {\ częściowe \ mathbf {\ lambda}}} = {\ kropka {\ mathbf {x}}}}, która

generuje funkcję przejścia stanu

{\ Displaystyle \mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)={\dot {\mathbf {x} }}}

,

{\ Displaystyle {\ Frac {\ częściowe H (\ mathbf {x} (t), \ mathbf {u } (t),\mathbf {\lambda } (t),t)}{\częściowe \mathbf {x} }}=-{\dot {\mathbf {\lambda }}}(t)} co

generuje

{\ Displaystyle {\ kropka {\ mathbf {\ lambda}}} (t) =-\left[I_{\mathbf {x}}(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda} ^{\mathsf {T}}( t)\mathbf {f} _{\mathbf {x}}(\mathbf {x} (t),\mathbf {u} (t),t)\right]}

z których te ostatnie są określane jako równania stanu . Razem równania stanu i kosztu opisują hamiltonowski układ dynamiczny (ponownie analogiczny, ale różny od układu hamiltonowskiego w fizyce), którego rozwiązanie obejmuje dwupunktowy problem wartości brzegowych , biorąc pod uwagę, że istnieje ${\ displaystyle 2n} warunki brzegowe obejmujące dwa różne punkty w czasie,$ $równania$ początkowy ( różniczkowe dla zmiennych stanu) i czas końcowy ( ${\ displaystyle n}$ równania różniczkowe dla zmiennych kosztowych; chyba że określona jest funkcja końcowa, warunki brzegowe to ${\ Displaystyle \ mathbf {\ lambda} (t_ {1}) = 0}$ lub ${\ displaystyle \lim _{t_{1}\to \infty}\mathbf {\lambda} (t_{1})=0}$ dla nieskończonych horyzontów czasowych).

Warunkiem wystarczającym na maksimum jest wklęsłość hamiltonianu ocenianego w rozwiązaniu, tj

{\ Displaystyle H _ {\ mathbf {uu}} (\ mathbf {x} ^ {\ ast} (t), \mathbf {u} ^{\ast}(t),\mathbf {\lambda} (t),t)\równik 0}

gdzie ${\ Displaystyle \ mathbf {u} ^ {\ ast} (t)}$ jest optymalną kontrolą i ${\ Displaystyle \ mathbf {x} ^ {\ ast} (t) }$ daje optymalną trajektorię dla zmiennej stanu. Alternatywnie, przez wynik uzyskany przez Olviego L. Mangasariana , warunki konieczne są wystarczające, jeśli funkcje ${\ Displaystyle ja (\ mathbf {x} (t), \ mathbf {u} (t), t)} i$ fa $\ Displaystyle \ mathbf {f} ( \mathbf {x} (t), \ mathbf {u} (t), t)} są$ wklęsłe w ${\ Displaystyle \ mathbf {x} (t)}$ i ${\ Displaystyle \ mathbf {u} (t)}$ .

Wyprowadzenie z Lagrange'a

Problem optymalizacji z ograniczeniami, taki jak ten podany powyżej, zwykle sugeruje w szczególności wyrażenie Lagrange'a

{\ Displaystyle L = \ int _ {t_ {0}} ^ {t_ {1}} ja (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^{\mathsf {T}}(t)\left[\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)-{\dot {\mathbf {x} }}(t)\right]\,\mathrm {d} t}

gdzie porównuje się z $mnożnikiem$ Lagrange'a w statycznym problemie optymalizacji, ale powyżej, jest funkcją czasu Aby wyeliminować , ostatni wyraz po prawej stronie można przepisać za pomocą całkowania przez części , tak że ${\ Displaystyle {\ kropka {\ mathbf {x}}} (t)}$

{\ Displaystyle - \ int _ {t_ {0}} ^ {t_ {1}} \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) {\ kropka {\ mathbf {x} }}(t)\,\mathrm {d} t=-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf { \lambda } ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})+\int _{t_{0}}^{t_{1}}{\kropka {\ mathbf {\lambda}}}^{\mathsf {T}}(t)\mathbf {x} (t)\,\mathrm {d} t}

które można z powrotem wstawić do wyrażenia Lagrange'a, aby dać

{\ Displaystyle L = \ int _ {t_ {0}} ^ {t_ {1}} \ lewo [ja ( \mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda} ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} ( t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda}}}^{\mathsf {T}}(t)\mathbf {x} (t)\right]\ ,\mathrm {d} t-\mathbf {\lambda} ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf {\lambda} ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})}

Aby wyprowadzić warunki pierwszego rzędu dla optimum, załóżmy, że rozwiązanie zostało znalezione, a Lagrangian jest zmaksymalizowany. Wtedy każde $_$ $.$ _ W szczególności, $posłuszna$ pochodna jest

{\ Displaystyle \ operatorname {d} L = \ int _ {t_ {0}} ^ {t_ {1}} \ lewo [\ lewo (I _ {\ mathbf {u}} (\ mathbf {x} (t), \mathbf {u} (t),t)+\mathbf {\lambda} ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {u}}(\mathbf {x} (t ),\mathbf {u} (t),t)\right)\mathrm {d} \mathbf {u} (t)+\left(I_{\mathbf {x} }(\mathbf {x} (t) ,\mathbf {u} (t),t)+\mathbf {\lambda} ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x}}(\mathbf {x} ( t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda}}}(t)\right)\mathrm {d} \mathbf {x} (t)\right]\ mathrm {d} t-\mathbf {\lambda} ^{\mathsf {T}}(t_{1})\mathrm {d} \mathbf {x} (t_{1})+\mathbf {\lambda} ^ {\mathsf {T}}(t_{0})\mathrm {d} \mathbf {x} (t_{0})\równoważnik 0}

Aby to wyrażenie było równe zeru, konieczne są następujące warunki optymalności:

{\ Displaystyle {\ rozpocząć {wyrównane} I _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf { T}}(t)\mathbf {f} _{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)&=0\\I_{\mathbf { x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda} ^{\mathsf {T}}(t)\mathbf {f} _{\ mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda}}}(t)&=0\end{wyrównane} }}

Jeśli zarówno wartość początkowa, $\$ i wartość końcowa są ustalone, $mathbf {x} (t_ {1}$ tj. ${\ Displaystyle \ operatorname {d} \ mathbf {x} (t_ {0}) = \ operatorname {d} \ mathbf {x} (t_ {1}) =0}$ , brak warunków na $(t_ {0}$ $\ mathbf {\ lambda}$ i są potrzebne $,$ to często bywa, dodatkowy warunek dla uzyskania optymalności Ten ostatni jest nazywany warunkiem poprzeczności dla problemu ustalonego horyzontu.

Można zauważyć, że warunki konieczne są identyczne z podanymi powyżej dla hamiltonianu. Tak więc hamiltonian można rozumieć jako urządzenie do generowania warunków koniecznych pierwszego rzędu.

Hamiltonian w czasie dyskretnym

Gdy problem jest sformułowany w czasie dyskretnym, hamiltonian definiuje się jako:

{\ Displaystyle H (x_ {t },u_{t},\lambda _{t+1},t)=\lambda _{t+1}^{\top }f(x_{t},u_{t},t)+I(x_ {t},u_{t},t)\,}

a równania kosztu są

{\ Displaystyle \ lambda _ {t} = {\ Frac {\ częściowe H} {\ częściowe x_ {t}}}}

(Zauważ, że hamiltonian czasu dyskretnego w czasie obejmuje zmienną kosztową w czasie $}$ ${\ displaystyle t + 1.} Ten mały szczegół$ niezbędny, abyśmy różniczkując względem $x}$ ${\ displaystyle t$ otrzymujemy termin obejmujący ${\ Displaystyle \ lambda (t + 1)}$ po prawej stronie równań stanu. Użycie tutaj niewłaściwej konwencji może prowadzić do błędnych wyników, tj. równania kosztowego, które nie jest równaniem różnicy wstecznej).

Zachowanie się hamiltonianu w czasie

Z zasady maksimum Pontriagina można wyprowadzić specjalne warunki dla hamiltonianu. Kiedy ostateczny czas $t$ ustalony, a hamiltonian nie zależy wyraźnie od czasu $}}=0\right)}$ $\ Displaystyle \ lewo ({\ tfrac {\ częściowe H}} {\ częściowe$ , a następnie:

\ Displaystyle H (x ^ {*} (t), u ^ {*} (t ),\lambda ^{*}(t))=\mathrm {stała} \,}

lub jeśli czas terminala jest wolny, to:

{\ Displaystyle H (x ^ {*} (t), u ^ {*} (t), \ lambda ^ { *}(t))=0.\,}

Ponadto, jeśli czas końcowy dąży do nieskończoności , obowiązuje warunek transwersalności hamiltonianu.

{\ Displaystyle \ lim _ {t \ do \ infty} H (t) = 0}

Hamiltonian kontroli w porównaniu z hamiltonianem mechaniki

William Rowan Hamilton zdefiniował hamiltonian do opisu mechaniki systemu. Jest to funkcja trzech zmiennych:

{\ Displaystyle {\ mathcal {H}} = {\ mathcal {H}} (p, q, t)=\langle p,{\kropka {q}}\rangle -L(q,{\kropka {q}},t)}

gdzie $jest Lagranżianem$ którego ekstremalizacja określa dynamikę ( $displaystyle$ zdefiniowanego powyżej), jest zmienną stanu i q $q }$ \ jest jego pochodną po czasie.

${\ displaystyle p}$ to tak zwany „ pęd sprzężony ”, określony przez

{\ Displaystyle p = {\ Frac {\ częściowe L} {\ częściowe {\ kropka {q}}}}}

Hamilton następnie sformułował swoje równania, aby opisać dynamikę systemu jako

{\ Displaystyle {\ Frac {d} {dt}} p (t) = - {\ Frac {\ częściowy} {\ częściowy q}} {\ mathcal {

\ Displaystyle {\ Frac {d} {dt}} q (t) = ~ ~ {\ Frac {\ częściowe} {\ częściowe p}} {\ matematyka {H}}}

Hamiltonian teorii sterowania opisuje nie dynamikę systemu, ale warunki ekstremalizacji jakiejś jego funkcji skalarnej (Lagrange'a) w odniesieniu do $sterującej$ . Zgodnie z normalną definicją jest to funkcja 4 zmiennych

{\ Displaystyle H (q, u, p, t) = \ langle p, {\ kropka {q} }\rangle -L(q,u,t)}

gdzie jest zmienną stanu i $jest$ $,$ co ekstremalizujemy.

Powiązane warunki dla maksimum to

{\ Displaystyle {\ Frac {dp} {dt}} = - {\ Frac {\ częściowe H} {\ częściowe q}}}

{ \ Displaystyle {\ Frac {dq} {dt}} = ~ ~ {\ Frac {\ częściowe H} {\ częściowe p}}} ∂ H ∂ u = {\ Displaystyle {\ Frac {\ częściowe

u }}=0}

Definicja ta zgadza się z definicją podaną w artykule Sussmanna i Willemsa. (patrz str. 39, równanie 14). Sussmann i Willems pokazują, jak hamiltonian kontrolny może być użyty w dynamice, np. dla problemu brachistochrony , ale nie wspominają o wcześniejszej pracy Carathéodory'ego nad tym podejściem.

Wartość bieżąca i wartość bieżąca Hamiltonian

W ekonomii funkcja celu w problemach optymalizacji dynamicznej często zależy bezpośrednio od czasu tylko poprzez dyskontowanie wykładnicze , tak że przyjmuje postać

{\ Displaystyle I (\ mathbf {x} (t), \ mathbf {u} (t),t)=e^{-\rho t}\nu (\mathbf {x} (t),\mathbf {u} (t))}

gdzie ${\ Displaystyle \ nu (\ mathbf {x} (t), \ mathbf {u} (t$ ) } } . Pozwala to na przedefiniowanie hamiltonianu jako ${\ Displaystyle H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t ),t)=e^{-\rho t}{\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda} (t))}$ Gdzie

{\ Displaystyle {\ rozpocząć {wyrównane} {\ bar {H}} (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t)} \ równoważnik & \, e^{\rho t}\left[I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t) \mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)\right]\\=&\,\nu (\mathbf {x} (t),\mathbf { u} (t),t)+\mathbf {\mu } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t), t)\koniec {wyrównane}}}

H. $\ Displaystyle H (\ mathbf {x} (t), \mathbf {u} (t),\mathbf {\lambda } (t),t)}$ zdefiniowane w pierwszej sekcji. Przede wszystkim zmienne kosztowe są ponownie definiowane jako ${\ Displaystyle \ mathbf {\ mu} (t) = e ^ {\ rho t} \ mathbf {\ lambda} (t)} , co$ prowadzi do zmodyfikowanych warunków pierwszego rzędu.

{\ Displaystyle {\ Frac {\ częściowe {\ bar {H}} (\ mathbf {x} (t), \ mathbf {u} (t),\mathbf {\lambda} (t)}}{\częściowy \mathbf {u} }}=0}

,

{\ Displaystyle {\ Frac {\ częściowe {\ bar {H}} (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\lambda} (t)}}{\częściowo \mathbf {x}}}=-{\kropka {\mathbf {\mu}}}(t)+\rho \mathbf {\mu} (t)}

co wynika bezpośrednio z reguły iloczynu . Z ekonomicznego punktu widzenia $)$ aktualne ceny ukryte dla dóbr kapitałowych $mathbf {x} (t$ }

Przykład: model Ramseya – Cass – Koopmansa

W ekonomii model Ramseya -Cassa-Koopmansa służy do określenia optymalnego zachowania oszczędnościowego dla gospodarki. Funkcja $_$ opieki , _

{\ Displaystyle J (c) = \ int _ {0} ^ {T} e ^ {- \ rho t} u (c ( t))dt}

maksymalizować poprzez wybór optymalnej ścieżki konsumpcji ${\ displaystyle c (t)}$ . Funkcja $_$ reprezentatywnego agenta _ _ _ $_$ _ Czynnik $\ Displaystyle e ^ {- \ rho t}}$ dyskontowanie mi - . Problem maksymalizacji podlega następującemu równaniu różniczkowemu dla kapitałochłonności , opisującemu ewolucję kapitału na efektywnego pracownika w czasie:

{\ Displaystyle {\ kropka {k}} = {\ Frac {\ częściowe k} \częściowe t}}=f(k(t))-(n+\delta )k(t)-c(t)}

gdzie do ${\ Displaystyle c (t)}$ to okres t konsumpcji, $t)}$ to okres t kapitału na pracownika (z ${\ Displaystyle k (0) ) = k_ {0}> 0}$ ), ${\ Displaystyle f (k (t))}$ to okres t produkcji, ${\ displaystyle n}$ to tempo wzrostu populacji, ${\ Displaystyle \ delta}$ to stopa amortyzacji kapitału, agent dyskontuje przyszłą użyteczność według stawki ${\ Displaystyle \ rho}$ , gdzie ${\ Displaystyle u'> 0}$ i ${\ displaystyle u'' < 0}$ .

Tutaj $zmienną$ $.$ zgodnie z powyższym równaniem, zmienną Hamiltonian staje się

{\ Displaystyle H (k, c, \ mu, t) = e ^ {- \ rho t} u (c (t)) + \ mu (t){\kropka {k}}=e^{-\rho t}u(c(t))+\mu (t)[f(k(t))-(n+\delta )k(t) -c(t)]}

Warunki optymalności są

{\ Displaystyle {\ Frac {\ częściowe H} {\ częściowe c}} = 0 \ Strzałka w prawo e ^ {- \ rho t} u '(c)=\mu (t)}

{\ Displaystyle {\ Frac {\ częściowe H}} {\ częściowe k}} = - {\ Frac {\ częściowe \ mu} {\ częściowe t}} = - {\ kropka {\mu }}\strzałka w prawo \mu (t)[f'(k)-(n+\delta )]=-{\kropka {\mu }}}

oprócz warunku poprzeczności ${\ Displaystyle \ mu (T) k (T) = 0}$ . Jeśli pozwolimy ${\ Displaystyle u (c) = \ log (c)}$ , to różnicowanie logarytmiczne pierwszego warunku optymalności w odniesieniu do plonów ${\ displaystyle t}$

{\ Displaystyle - \ rho - {\ Frac {\ kropka {c}} {c (t)}} = {\ Frac {\ kropka {\ mu }}{\mu (t)}}}

Wstawienie tego równania do drugiego warunku optymalności daje wyniki

{\ Displaystyle \ rho + {\ Frac {\ kropka {c}} {c (t)}} = f '(k) - (n+\delta )}

która jest znana jako reguła Keynesa-Ramseya , która określa warunek konsumpcji w każdym okresie, który, jeśli jest przestrzegany, zapewnia maksymalną użyteczność w całym okresie życia.

Dalsza lektura

Leonard, Daniel; Długie, Ngo Van (1992). „Zasada maksimum” . Teoria sterowania optymalnego i optymalizacja statyczna w ekonomii . Nowy Jork: Cambridge University Press. s. 127–168. ISBN 0-521-33158-7 .
Takayama, Akira (1985). „Rozwój teorii sterowania optymalnego i jej zastosowania” . Ekonomia matematyczna (wyd. 2). Nowy Jork: Cambridge University Press. s. 600–719. ISBN 0-521-31498-4 .
Wulwick, Nancy (1995). „Formalizm Hamiltona i teoria optymalnego wzrostu”. W Rimie, IH (red.). Pomiar, kwantyfikacja i analiza ekonomiczna . Londyn: Routledge. ISBN 978-0-415-08915-9 .