У теорії оптимального управління рівняння Гамільтона — Якобі — Беллмана (HJB) дає необхідну та достатню умову оптимальності керування щодо функції втрат. Загалом це нелінійне диференціальне рівняння з частинними похідними у функції значення, що означає, що його розв'язком є сама функція значення. Як тільки цей розв'язок знайдено, його можна використовувати для отримання оптимального управління, взявши максимізер (або мінімізатор) гамільтоніан, що бере участь у рівнянні HJB.
Рівняння є результатом теорії динамічного програмування, яка була започаткована в 1950-х роках Річардом Беллманом та його колегами. Зв'язок із рівнянням Гамільтона–Якобі з класичної фізики вперше встановив Рудольф Кальман. У задачах з [en] відповідне рекурентне співвідношення зазвичай називають рівнянням Беллмана.
Хоча класичні варіаційні задачі, такі як проблема брахістохрони, можна розв'язати за допомогою рівняння Гамільтона–Якобі–Беллмана, цей метод можна застосувати до більш широкого спектру задач. Далі його можна узагальнити на стохастичні системи, у цьому випадку рівняння HJB є еліптичним диференціальним рівнянням у частинних похідних другого порядку. Головним недоліком, однак, є те, що рівняння HJB допускає класичні рішення лише для достатньо гладкої функції значення, що не гарантується в більшості ситуацій. Натомість потрібне поняття [en], в якому звичайні похідні замінюються (з заданим значенням) підпохідними.
Проблеми оптимального управління
Розглянемо наступну задачу детермінованого оптимального управління за період часу :
де — скалярна функція норми втрат і є функцією, яка дає [en] у кінцевому стані, — вектор стану системи, передбачається даним, і для — це вектор управління, який ми намагаємося знайти.
Система також повинна підпорядковуватися
де дає вектор, що визначає фізичну зміну вектора стану з часом.
Диференціальне рівняння з частинними похідними
Для цієї простої системи (нехай ), диференціальне рівняння з частинними похідними Гамільтона–Якобі–Беллмана представляє собою
залежно від термінальної умови
Невідомий скаляр у наведеному вище диференціальному рівнянні з частинними похідними є функцієї цінності Беллмана, яка представляє втрати, понесені від початку роботи в стані під час і оптимальне управління системою з тих пір і до часу .
Виведення рівняння
Інтуїтивно рівняння HJB можна вивести наступним чином. Якщо є оптимальною функцією втрат на доставку (також званою «функцією цінності»), то відповідно до принципу оптимальності Річарда Беллмана, переходячи від часу t до t + dt, маємо
Зауважте, що розкладання Тейлора першого члена в правій частині є
де позначає елементи в розкладанні Тейлора вищого порядку за одиницю у нотації з маленьким о. Тоді, якщо відняти з обох сторін, поділити на dt і знайти границю, коли dt наближається до нуля, то ми отримуємо рівняння HJB, визначене вище.
Розв'язування рівняння
Рівняння HJB зазвичай розв'язується у зворотному напрямку в часі, починаючи з і закінчується на .
При розв'язанні на всьому просторі станів є безперервно диференційованою, рівняння HJB є необхідною та достатньою умовою оптимуму, коли кінцевий стан є необмеженим. Якщо ми зможемо вирішити , то матимемо змогу знайти з нього елемент управління , що забезпечує мінімальну вартість (цінність).
У загальному випадку рівняння HJB не має класичного (гладкого) розв'язку. Для охоплення таких ситуацій було розроблено кілька понять про узагальнені рішення, включаюч в'язкісне рішення (П'єр-Луї Лайонс і [en]), мінімаксне рішення ([ru]), та інші.
Наближене динамічне програмування було введено [en] та [en] із використанням штучних нейронних мереж (багатошарових персептронів) для апроксимації функції Беллмана в цілому. Це ефективна стратегія пом'якшення для зменшення впливу розмірності шляхом заміни запам'ятовування повного відображення функцій для всієї просторової області запам'ятовуванням окремих параметрів нейронної мережі. Зокрема, для систем безперервного часу введено наближений підхід динамічного програмування, який поєднує обидва ітераційних підходи з нейронними мережами. У дискретному часі було введено підхід до вирішення рівняння HJB, що поєднує ітерації значень і нейронні мережі.
Крім того, було показано, що [en] може дати наближений поліноміальний розв'язок рівняння Гамільтона-Якобі-Беллмана довільно добре по відношенню до норми.
Ідею вирішення задачі управління шляхом застосування з подальшою розробкою стратегії оптимізації назад у часі можна узагальнити на стохастичні задачі управління. Розглянемо
де є стохастичним процесом для оптимізації та є управлінням. Спочатку використавши принцип оптимальності Беллмана, а потім розширивши за правилом Іто, можна знайти стохастичне рівняння HJB
де представляє [en], і підлягає термінальній умові
Зауважте, що випадковість зникла. В даному випадку останнє рішення не обов'язково вирішує основну задачу, воно є лише кандидатом і потрібен додатковий перевіряючий аргумент. Цей метод широко використовується у фінансовій математиці для визначення оптимальних інвестиційних стратегій на ринку (див., наприклад, [en]).
Застосування до LQG Control
Як приклад можна розглянути систему з лінійною стохастичною динамікою та квадратичною вартістю. Якщо динаміка системи задана
і вартість накопичується зі швидкістю , рівняння HJB задається як
з оптимальною дією, заданою
Прийнявши квадратичну форму для функції значення, ми отримуємо звичайне рівняння Ріккаті для гесіана функції значення, як це зазвичай відбувається для [en].
Див. також
- Рівняння Беллмана, аналог рівняння Гамільтона–Якобі–Беллмана з дискретним часом.
- Принцип максимуму Понтрягіна, необхідна, але не достатня умова для оптимуму, шляхом максимізації гамільтоніана, але він має перевагу над HJB, оскільки його необхідно задовольнити лише на одній розглянутій траєкторії.
Посилання
- Kirk, Donald E. (1970). Optimal Control Theory: An Introduction. Englewood Cliffs, NJ: Prentice-Hall. с. 86—90. ISBN .
- Yong, Jiongmin; Zhou, Xun Yu (1999). Dynamic Programming and HJB Equations. Stochastic Controls : Hamiltonian Systems and HJB Equations. Springer. с. 157–215 [p. 163]. ISBN .
- Naidu, Desineni S. (2003). The Hamilton–Jacobi–Bellman Equation. Optimal Control Systems. Boca Raton: CRC Press. с. 277–283 [p. 280]. ISBN .
- Bellman, R. E. (1954). Dynamic Programming and a new formalism in the calculus of variations. Proc. Natl. Acad. Sci. 40 (4): 231—235. Bibcode:1954PNAS...40..231B. doi:10.1073/pnas.40.4.231. PMC 527981. PMID 16589462.
- Bellman, R. E. (1957). Dynamic Programming. Princeton, NJ.
- Bellman, R.; Dreyfus, S. (1959). An Application of Dynamic Programming to the Determination of Optimal Satellite Trajectories. J. Br. Interplanet. Soc. 17: 78—83.
- Kálmán, Rudolf E. (1963). The Theory of Optimal Control and the Calculus of Variations. У Bellman, Richard (ред.). Mathematical Optimization Techniques. Berkeley: University of California Press. с. 309—331. OCLC 1033974.
- Kemajou-Brown, Isabelle (2016). Brief History of Optimal Control Theory and Some Recent Developments. У Budzban, Gregory; Hughes, Harry Randolph; Schurz, Henri (ред.). Probability on Algebraic and Geometric Structures. Contemporary Mathematics. Т. 668. с. 119—130. doi:10.1090/conm/668/13400. ISBN .
- Chang, Fwu-Ranq (2004). Stochastic Optimization in Continuous Time. Cambridge, UK: Cambridge University Press. с. 113—168. ISBN .
- Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Optimal Control and Viscosity Solutions of Hamilton–Jacobi–Bellman Equations. Boston: Birkhäuser. ISBN .
- Bertsekas, Dimitri P. (2005). Dynamic Programming and Optimal Control. Athena Scientific.
- Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Optimal Control and Viscosity Solutions of Hamilton-Jacobi-Bellman Equations. Boston: Birkhäuser. ISBN .
- Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-dynamic Programming. Athena Scientific. ISBN .
- Abu-Khalaf, Murad; Lewis, Frank L. (2005). Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach. Automatica. 41 (5): 779—791. doi:10.1016/j.automatica.2004.11.034.
- Al-Tamimi, Asma; Lewis, Frank L.; Abu-Khalaf, Murad (2008). Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). 38 (4): 943—949. doi:10.1109/TSMCB.2008.926614. PMID 18632382.
- Jones, Morgan; Peet, Matthew (2020). Polynomial Approximation of Value Functions and Nonlinear Controller Design with Performance Bounds. arXiv:2010.06828.
Бібліографія
- (2005). Dynamic Programming and Optimal Control. Athena Scientific.
- Pham, Huyên (2009). The Classical PDE Approach to Dynamic Programming. Continuous-time Stochastic Control and Optimization with Financial Applications. Springer. с. 37–60. ISBN .
- Stengel, Robert F. (1994). Conditions for Optimality. Optimal Control and Estimation. New York: Dover. с. 201—222. ISBN .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U teoriyi optimalnogo upravlinnya rivnyannya Gamiltona Yakobi Bellmana HJB daye neobhidnu ta dostatnyu umovu optimalnosti keruvannya shodo funkciyi vtrat Zagalom ce nelinijne diferencialne rivnyannya z chastinnimi pohidnimi u funkciyi znachennya sho oznachaye sho jogo rozv yazkom ye sama funkciya znachennya Yak tilki cej rozv yazok znajdeno jogo mozhna vikoristovuvati dlya otrimannya optimalnogo upravlinnya vzyavshi maksimizer abo minimizator gamiltonian sho bere uchast u rivnyanni HJB Rivnyannya ye rezultatom teoriyi dinamichnogo programuvannya yaka bula zapochatkovana v 1950 h rokah Richardom Bellmanom ta jogo kolegami Zv yazok iz rivnyannyam Gamiltona Yakobi z klasichnoyi fiziki vpershe vstanoviv Rudolf Kalman U zadachah z en vidpovidne rekurentne spivvidnoshennya zazvichaj nazivayut rivnyannyam Bellmana Hocha klasichni variacijni zadachi taki yak problema brahistohroni mozhna rozv yazati za dopomogoyu rivnyannya Gamiltona Yakobi Bellmana cej metod mozhna zastosuvati do bilsh shirokogo spektru zadach Dali jogo mozhna uzagalniti na stohastichni sistemi u comu vipadku rivnyannya HJB ye eliptichnim diferencialnim rivnyannyam u chastinnih pohidnih drugogo poryadku Golovnim nedolikom odnak ye te sho rivnyannya HJB dopuskaye klasichni rishennya lishe dlya dostatno gladkoyi funkciyi znachennya sho ne garantuyetsya v bilshosti situacij Natomist potribne ponyattya en v yakomu zvichajni pohidni zaminyuyutsya z zadanim znachennyam pidpohidnimi Problemi optimalnogo upravlinnyaRozglyanemo nastupnu zadachu determinovanogo optimalnogo upravlinnya za period chasu 0 T displaystyle 0 T V T x 0 0 min u 0 T C x t u t d t D x T displaystyle V T x 0 0 min u left int 0 T C x t u t dt D x T right de C displaystyle C cdot skalyarna funkciya normi vtrat i D displaystyle D cdot ye funkciyeyu yaka daye en u kincevomu stani x t displaystyle x t vektor stanu sistemi x 0 displaystyle x 0 peredbachayetsya danim i u t displaystyle u t dlya 0 t T displaystyle 0 leq t leq T ce vektor upravlinnya yakij mi namagayemosya znajti Sistema takozh povinna pidporyadkovuvatisya x t F x t u t displaystyle dot x t F x t u t de F displaystyle F cdot daye vektor sho viznachaye fizichnu zminu vektora stanu z chasom Diferencialne rivnyannya z chastinnimi pohidnimiDlya ciyeyi prostoyi sistemi nehaj V V T displaystyle V V T diferencialne rivnyannya z chastinnimi pohidnimi Gamiltona Yakobi Bellmana predstavlyaye soboyu V x t t min u V x t x F x u C x u 0 displaystyle frac partial V x t partial t min u left frac partial V x t partial x cdot F x u C x u right 0 zalezhno vid terminalnoyi umovi V x T D x displaystyle V x T D x Nevidomij skalyar V x t displaystyle V x t u navedenomu vishe diferencialnomu rivnyanni z chastinnimi pohidnimi ye funkciyeyi cinnosti Bellmana yaka predstavlyaye vtrati poneseni vid pochatku roboti v stani x displaystyle x pid chas t displaystyle t i optimalne upravlinnya sistemoyu z tih pir i do chasu T displaystyle T Vivedennya rivnyannyaIntuyitivno rivnyannya HJB mozhna vivesti nastupnim chinom Yaksho V x t t displaystyle V x t t ye optimalnoyu funkciyeyu vtrat na dostavku takozh zvanoyu funkciyeyu cinnosti to vidpovidno do principu optimalnosti Richarda Bellmana perehodyachi vid chasu t do t dt mayemo V x t t min u V x t d t t d t t t d t C x s u s d s displaystyle V x t t min u left V x t dt t dt int t t dt C x s u s ds right Zauvazhte sho rozkladannya Tejlora pershogo chlena v pravij chastini ye V x t d t t d t V x t t V x t t d t V x t x x t d t o d t displaystyle V x t dt t dt V x t t frac partial V x t partial t dt frac partial V x t partial x cdot dot x t dt mathcal o dt de o d t displaystyle mathcal o dt poznachaye elementi v rozkladanni Tejlora vishogo poryadku za odinicyu u notaciyi z malenkim o Todi yaksho vidnyati V x t t displaystyle V x t t z oboh storin podiliti na dt i znajti granicyu koli dt nablizhayetsya do nulya to mi otrimuyemo rivnyannya HJB viznachene vishe Rozv yazuvannya rivnyannyaRivnyannya HJB zazvichaj rozv yazuyetsya u zvorotnomu napryamku v chasi pochinayuchi z t T displaystyle t T i zakinchuyetsya na t 0 displaystyle t 0 Pri rozv yazanni na vsomu prostori staniv V x displaystyle V x ye bezperervno diferencijovanoyu rivnyannya HJB ye neobhidnoyu ta dostatnoyu umovoyu optimumu koli kincevij stan ye neobmezhenim Yaksho mi zmozhemo virishiti V displaystyle V to matimemo zmogu znajti z nogo element upravlinnya u displaystyle u sho zabezpechuye minimalnu vartist cinnist U zagalnomu vipadku rivnyannya HJB ne maye klasichnogo gladkogo rozv yazku Dlya ohoplennya takih situacij bulo rozrobleno kilka ponyat pro uzagalneni rishennya vklyuchayuch v yazkisne rishennya P yer Luyi Lajons i en minimaksne rishennya ru ta inshi Nablizhene dinamichne programuvannya bulo vvedeno en ta en iz vikoristannyam shtuchnih nejronnih merezh bagatosharovih perseptroniv dlya aproksimaciyi funkciyi Bellmana v cilomu Ce efektivna strategiya pom yakshennya dlya zmenshennya vplivu rozmirnosti shlyahom zamini zapam yatovuvannya povnogo vidobrazhennya funkcij dlya vsiyeyi prostorovoyi oblasti zapam yatovuvannyam okremih parametriv nejronnoyi merezhi Zokrema dlya sistem bezperervnogo chasu vvedeno nablizhenij pidhid dinamichnogo programuvannya yakij poyednuye obidva iteracijnih pidhodi z nejronnimi merezhami U diskretnomu chasi bulo vvedeno pidhid do virishennya rivnyannya HJB sho poyednuye iteraciyi znachen i nejronni merezhi Krim togo bulo pokazano sho en mozhe dati nablizhenij polinomialnij rozv yazok rivnyannya Gamiltona Yakobi Bellmana dovilno dobre po vidnoshennyu do L 1 displaystyle L 1 normi Ideyu virishennya zadachi upravlinnya shlyahom zastosuvannya z podalshoyu rozrobkoyu strategiyi optimizaciyi nazad u chasi mozhna uzagalniti na stohastichni zadachi upravlinnya Rozglyanemo min u E 0 T C t X t u t d t D X T displaystyle min u mathbb E left int 0 T C t X t u t dt D X T right de X t t 0 T displaystyle X t t in 0 T ye stohastichnim procesom dlya optimizaciyi ta u t t 0 T displaystyle u t t in 0 T ye upravlinnyam Spochatku vikoristavshi princip optimalnosti Bellmana a potim rozshirivshi V X t t displaystyle V X t t za pravilom Ito mozhna znajti stohastichne rivnyannya HJB min u A V x t C t x u 0 displaystyle min u left mathcal A V x t C t x u right 0 de A displaystyle mathcal A predstavlyaye en i pidlyagaye terminalnij umovi V x T D x displaystyle V x T D x Zauvazhte sho vipadkovist znikla V danomu vipadku ostannye rishennya V displaystyle V ne obov yazkovo virishuye osnovnu zadachu vono ye lishe kandidatom i potriben dodatkovij pereviryayuchij argument Cej metod shiroko vikoristovuyetsya u finansovij matematici dlya viznachennya optimalnih investicijnih strategij na rinku div napriklad en Zastosuvannya do LQG Control Yak priklad mozhna rozglyanuti sistemu z linijnoyu stohastichnoyu dinamikoyu ta kvadratichnoyu vartistyu Yaksho dinamika sistemi zadana d x t a x t b u t d t s d w t displaystyle dx t ax t bu t dt sigma dw t i vartist nakopichuyetsya zi shvidkistyu C x t u t r t u t 2 2 q t x t 2 2 displaystyle C x t u t r t u t 2 2 q t x t 2 2 rivnyannya HJB zadayetsya yak V x t t 1 2 q t x 2 V x t x a x b 2 2 r t V x t x 2 s 2 2 2 V x t x 2 displaystyle frac partial V x t partial t frac 1 2 q t x 2 frac partial V x t partial x ax frac b 2 2r t left frac partial V x t partial x right 2 frac sigma 2 2 frac partial 2 V x t partial x 2 z optimalnoyu diyeyu zadanoyu u t b r t V x t x displaystyle u t frac b r t frac partial V x t partial x Prijnyavshi kvadratichnu formu dlya funkciyi znachennya mi otrimuyemo zvichajne rivnyannya Rikkati dlya gesiana funkciyi znachennya yak ce zazvichaj vidbuvayetsya dlya en Div takozhRivnyannya Bellmana analog rivnyannya Gamiltona Yakobi Bellmana z diskretnim chasom Princip maksimumu Pontryagina neobhidna ale ne dostatnya umova dlya optimumu shlyahom maksimizaciyi gamiltoniana ale vin maye perevagu nad HJB oskilki jogo neobhidno zadovolniti lishe na odnij rozglyanutij trayektoriyi PosilannyaKirk Donald E 1970 Optimal Control Theory An Introduction Englewood Cliffs NJ Prentice Hall s 86 90 ISBN 0 13 638098 0 Yong Jiongmin Zhou Xun Yu 1999 Dynamic Programming and HJB Equations Stochastic Controls Hamiltonian Systems and HJB Equations Springer s 157 215 p 163 ISBN 0 387 98723 1 Naidu Desineni S 2003 The Hamilton Jacobi Bellman Equation Optimal Control Systems Boca Raton CRC Press s 277 283 p 280 ISBN 0 8493 0892 5 Bellman R E 1954 Dynamic Programming and a new formalism in the calculus of variations Proc Natl Acad Sci 40 4 231 235 Bibcode 1954PNAS 40 231B doi 10 1073 pnas 40 4 231 PMC 527981 PMID 16589462 Bellman R E 1957 Dynamic Programming Princeton NJ Bellman R Dreyfus S 1959 An Application of Dynamic Programming to the Determination of Optimal Satellite Trajectories J Br Interplanet Soc 17 78 83 Kalman Rudolf E 1963 The Theory of Optimal Control and the Calculus of Variations U Bellman Richard red Mathematical Optimization Techniques Berkeley University of California Press s 309 331 OCLC 1033974 Kemajou Brown Isabelle 2016 Brief History of Optimal Control Theory and Some Recent Developments U Budzban Gregory Hughes Harry Randolph Schurz Henri red Probability on Algebraic and Geometric Structures Contemporary Mathematics T 668 s 119 130 doi 10 1090 conm 668 13400 ISBN 9781470419455 Chang Fwu Ranq 2004 Stochastic Optimization in Continuous Time Cambridge UK Cambridge University Press s 113 168 ISBN 0 521 83406 6 Bardi Martino Capuzzo Dolcetta Italo 1997 Optimal Control and Viscosity Solutions of Hamilton Jacobi Bellman Equations Boston Birkhauser ISBN 0 8176 3640 4 Bertsekas Dimitri P 2005 Dynamic Programming and Optimal Control Athena Scientific Bardi Martino Capuzzo Dolcetta Italo 1997 Optimal Control and Viscosity Solutions of Hamilton Jacobi Bellman Equations Boston Birkhauser ISBN 0 8176 3640 4 Bertsekas Dimitri P Tsitsiklis John N 1996 Neuro dynamic Programming Athena Scientific ISBN 978 1 886529 10 6 Abu Khalaf Murad Lewis Frank L 2005 Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach Automatica 41 5 779 791 doi 10 1016 j automatica 2004 11 034 Al Tamimi Asma Lewis Frank L Abu Khalaf Murad 2008 Discrete Time Nonlinear HJB Solution Using Approximate Dynamic Programming Convergence Proof IEEE Transactions on Systems Man and Cybernetics Part B Cybernetics 38 4 943 949 doi 10 1109 TSMCB 2008 926614 PMID 18632382 Jones Morgan Peet Matthew 2020 Polynomial Approximation of Value Functions and Nonlinear Controller Design with Performance Bounds arXiv 2010 06828 Bibliografiya 2005 Dynamic Programming and Optimal Control Athena Scientific Pham Huyen 2009 The Classical PDE Approach to Dynamic Programming Continuous time Stochastic Control and Optimization with Financial Applications Springer s 37 60 ISBN 978 3 540 89499 5 Stengel Robert F 1994 Conditions for Optimality Optimal Control and Estimation New York Dover s 201 222 ISBN 0 486 68200 5