Функція цінності оптимізаційної задачі дає значення, отримане виконанням цільової функції, але тільки в залежності від параметрів задачі. У керованій динамічній системі функція цінності представляє оптимальний винагороду системи на інтервалі [t, t1] при старті в момент часу t стану x(t)=x. Якщо цільова функція представляє деяку вартість, яку потрібно мінімізувати, функцію цінності можна інтерпретувати як собівартість завершення оптимальної програми, і тому її називають «функцією собівартості». В економічному контексті, де цільова функція зазвичай представляє корисність, функція цінності концептуально еквівалентна функції непрямої корисності.
У задачі оптимального керування функція цінності визначається як супремум цільової функції, взятий на множині допустимих дій. При , типова задача оптимального керування полягає в
за умови, що
з початковим станом . Цільова функція має бути максимізовано за всіма допустимими діями , де є функцією вимірною за мірою Лебега, яка відображає інтервал у визначену підмножину . Тоді функція цінності має вигляд
з , де — це «втрати». Якщо — це оптимальна пара векторів дій та станів, то . Функція , яка повертає оптимальний вектор дій для стану називається функцією стратегії.
Принцип оптимальності Беллмана стверджує, що будь-яка оптимальна стратегія в часі , приймаючи поточний стан за «новий» початковий стан буде оптимальною і для решти задачі. Якщо функція цінності є безперервно диференційованою, то вона зводиться до диференціального рівняння в частинних похідних, відомого як рівняння Гамільтона–Якобі–Беллмана,
де максимум у правій частині також можна переписати як [en],
, як
з відіграють роль [en]. Враховуючи це, маємо , і після диференціювання обох сторін рівняння Гамільтона–Якобі–Беллмана відносно рівняння має вигляд
яке після заміни відповідних членів відновлює [en]
де це нотація Ньютона для похідної за часом.
Функція цінності є унікальним [en] рівняння Гамільтона–Якобі–Беллмана. У замкненій онлайн системі з наближено-оптимальним управлінням функція цінності також є функцією Ляпунова, яка встановлює глобальну асимптотичну стійкість замкнутої системи.
Примітки
- ; Rishel, Raymond W. (1975). Deterministic and Stochastic Optimal Control. New York: Springer. с. 81—83. ISBN .
- Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. с. 185. ISBN .
- Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. с. 82. ISBN .
- Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-Dynamic Programming. Belmont: Athena Scientific. с. 2. ISBN .
- EE365: Dynamic Programming (PDF).
- ; ; Green, Jerry R. (1995). Microeconomic Theory. New York: Oxford University Press. с. 964. ISBN .
- Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). An Introduction to Mathematical Analysis for Economic Theory and Econometrics. Princeton University Press. с. 145. ISBN .
- ; Schwartz, Nancy L. (1991). Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management (вид. 2nd). Amsterdam: North-Holland. с. 259. ISBN .
- ; (2018). Recursive Macroeconomic Theory (вид. Fourth). Cambridge: MIT Press. с. 106. ISBN .
- Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function, which in turn allows an application of the envelope theorem, see Benveniste, L. M.; Scheinkman, J. A. (1979). On the Differentiability of the Value Function in Dynamic Models of Economics. Econometrica. 47 (3): 727—732. doi:10.2307/1910417. JSTOR 1910417. Also see Seierstad, Atle (1982). Differentiability Properties of the Optimal Value Function in Control Theory. Journal of Economic Dynamics and Control. 4: 303—310. doi:10.1016/0165-1889(82)90019-7.
- Kirk, Donald E. (1970). Optimal Control Theory. Englewood Cliffs, NJ: Prentice-Hall. с. 88. ISBN .
- Zhou, X. Y. (1990). Maximum Principle, Dynamic Programming, and their Connection in Deterministic Control. Journal of Optimization Theory and Applications. 65 (2): 363—373. doi:10.1007/BF01102352.
- Theorem 10.1 in Bressan, Alberto (2019). Viscosity Solutions of Hamilton-Jacobi Equations and Optimal Control Problems (PDF). Lecture Notes.
- Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). Optimal Control and Lyapunov Stability. Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach. Berlin: Springer. с. 26—27. ISBN .
Подальше читання
- Caputo, Michael R. (2005). Necessary and Sufficient Conditions for Isoperimetric Problems. Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. с. 174–210. ISBN .
- Clarke, Frank H.; Loewen, Philip D. (1986). The Value Function in Optimal Control: Sensitivity, Controllability, and Time-Optimality. SIAM Journal on Control and Optimization. 24 (2): 243—263. doi:10.1137/0324014.
- LaFrance, Jeffrey T.; Barney, L. Dwayne (1991). The Envelope Theorem in Dynamic Optimization (PDF). Journal of Economic Dynamics and Control. 15 (2): 355—385. doi:10.1016/0165-1889(91)90018-V.
- Stengel, Robert F. (1994). Conditions for Optimality. Optimal Control and Estimation. New York: Dover. с. 201—222. ISBN .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Funkciya cinnosti optimizacijnoyi zadachi daye znachennya otrimane vikonannyam cilovoyi funkciyi ale tilki v zalezhnosti vid parametriv zadachi U kerovanij dinamichnij sistemi funkciya cinnosti predstavlyaye optimalnij vinagorodu sistemi na intervali t t1 pri starti v moment chasu t stanu x t x Yaksho cilova funkciya predstavlyaye deyaku vartist yaku potribno minimizuvati funkciyu cinnosti mozhna interpretuvati yak sobivartist zavershennya optimalnoyi programi i tomu yiyi nazivayut funkciyeyu sobivartosti V ekonomichnomu konteksti de cilova funkciya zazvichaj predstavlyaye korisnist funkciya cinnosti konceptualno ekvivalentna funkciyi nepryamoyi korisnosti U zadachi optimalnogo keruvannya funkciya cinnosti viznachayetsya yak supremum cilovoyi funkciyi vzyatij na mnozhini dopustimih dij Pri t0 x0 0 t1 Rd displaystyle t 0 x 0 in 0 t 1 times mathbb R d tipova zadacha optimalnogo keruvannya polyagaye v maximizeJ t0 x0 u t0t1I t x t u t dt ϕ x t1 displaystyle text maximize quad J t 0 x 0 u int t 0 t 1 I t x t u t mathrm d t phi x t 1 za umovi sho dx t dt f t x t u t displaystyle frac mathrm d x t mathrm d t f t x t u t z pochatkovim stanom x t0 x0 displaystyle x t 0 x 0 Cilova funkciya J t0 x0 u displaystyle J t 0 x 0 u maye buti maksimizovano za vsima dopustimimi diyami u U t0 t1 displaystyle u in U t 0 t 1 de u displaystyle u ye funkciyeyu vimirnoyu za miroyu Lebega yaka vidobrazhaye interval t0 t1 displaystyle t 0 t 1 u viznachenu pidmnozhinu Rm displaystyle mathbb R m Todi funkciya cinnosti maye viglyadV t x t maxu U tt1I t x t u t dt ϕ x t1 displaystyle V t x t max u in U int t t 1 I tau x tau u tau mathrm d tau phi x t 1 z V t1 x t1 ϕ x t1 displaystyle V t 1 x t 1 phi x t 1 de ϕ x t1 displaystyle phi x t 1 ce vtrati Yaksho x u displaystyle x ast u ast ce optimalna para vektoriv dij ta staniv to V t0 x0 J t0 x0 u displaystyle V t 0 x 0 J t 0 x 0 u ast Funkciya h displaystyle h yaka povertaye optimalnij vektor dij u displaystyle u ast dlya stanu x displaystyle x nazivayetsya funkciyeyu strategiyi Princip optimalnosti Bellmana stverdzhuye sho bud yaka optimalna strategiya v chasi t displaystyle t t0 t t1 displaystyle t 0 leqslant t leqslant t 1 prijmayuchi potochnij stan x t displaystyle x t za novij pochatkovij stan bude optimalnoyu i dlya reshti zadachi Yaksho funkciya cinnosti ye bezperervno diferencijovanoyu to vona zvoditsya do diferencialnogo rivnyannya v chastinnih pohidnih vidomogo yak rivnyannya Gamiltona Yakobi Bellmana V t x t maxu I t x u V t x xf t x u displaystyle frac partial V t x partial t max u left I t x u frac partial V t x partial x f t x u right de maksimum u pravij chastini takozh mozhna perepisati yak en H t x u l I t x u l t f t x u displaystyle H left t x u lambda right I t x u lambda t f t x u yak V t x t maxuH t x u l displaystyle frac partial V t x partial t max u H t x u lambda z V t x x l t displaystyle partial V t x partial x lambda t vidigrayut rol en Vrahovuyuchi ce mayemo dl t dt 2V t x x t 2V t x x2 f x displaystyle mathrm d lambda t mathrm d t partial 2 V t x partial x partial t partial 2 V t x partial x 2 cdot f x i pislya diferenciyuvannya oboh storin rivnyannya Gamiltona Yakobi Bellmana vidnosno x displaystyle x rivnyannya maye viglyad 2V t x t x I x 2V t x x2f x V t x x f x x displaystyle frac partial 2 V t x partial t partial x frac partial I partial x frac partial 2 V t x partial x 2 f x frac partial V t x partial x frac partial f x partial x yake pislya zamini vidpovidnih chleniv vidnovlyuye en l t I x l t f x x H x displaystyle dot lambda t underbrace frac partial I partial x lambda t frac partial f x partial x frac partial H partial x de l t displaystyle dot lambda t ce notaciya Nyutona dlya pohidnoyi za chasom Funkciya cinnosti ye unikalnim en rivnyannya Gamiltona Yakobi Bellmana U zamknenij onlajn sistemi z nablizheno optimalnim upravlinnyam funkciya cinnosti takozh ye funkciyeyu Lyapunova yaka vstanovlyuye globalnu asimptotichnu stijkist zamknutoyi sistemi Primitki Rishel Raymond W 1975 Deterministic and Stochastic Optimal Control New York Springer s 81 83 ISBN 0 387 90155 8 Caputo Michael R 2005 Foundations of Dynamic Economic Analysis Optimal Control Theory and Applications New York Cambridge University Press s 185 ISBN 0 521 60368 4 Weber Thomas A 2011 Optimal Control Theory with Applications in Economics Cambridge The MIT Press s 82 ISBN 978 0 262 01573 8 Bertsekas Dimitri P Tsitsiklis John N 1996 Neuro Dynamic Programming Belmont Athena Scientific s 2 ISBN 1 886529 10 8 EE365 Dynamic Programming PDF Green Jerry R 1995 Microeconomic Theory New York Oxford University Press s 964 ISBN 0 19 507340 1 Corbae Dean Stinchcombe Maxwell B Zeman Juraj 2009 An Introduction to Mathematical Analysis for Economic Theory and Econometrics Princeton University Press s 145 ISBN 978 0 691 11867 3 Schwartz Nancy L 1991 Dynamic Optimization The Calculus of Variations and Optimal Control in Economics and Management vid 2nd Amsterdam North Holland s 259 ISBN 0 444 01609 0 2018 Recursive Macroeconomic Theory vid Fourth Cambridge MIT Press s 106 ISBN 978 0 262 03866 9 Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function which in turn allows an application of the envelope theorem see Benveniste L M Scheinkman J A 1979 On the Differentiability of the Value Function in Dynamic Models of Economics Econometrica 47 3 727 732 doi 10 2307 1910417 JSTOR 1910417 Also see Seierstad Atle 1982 Differentiability Properties of the Optimal Value Function in Control Theory Journal of Economic Dynamics and Control 4 303 310 doi 10 1016 0165 1889 82 90019 7 Kirk Donald E 1970 Optimal Control Theory Englewood Cliffs NJ Prentice Hall s 88 ISBN 0 13 638098 0 Zhou X Y 1990 Maximum Principle Dynamic Programming and their Connection in Deterministic Control Journal of Optimization Theory and Applications 65 2 363 373 doi 10 1007 BF01102352 Theorem 10 1 in Bressan Alberto 2019 Viscosity Solutions of Hamilton Jacobi Equations and Optimal Control Problems PDF Lecture Notes Kamalapurkar Rushikesh Walters Patrick Rosenfeld Joel Dixon Warren 2018 Optimal Control and Lyapunov Stability Reinforcement Learning for Optimal Feedback Control A Lyapunov Based Approach Berlin Springer s 26 27 ISBN 978 3 319 78383 3 Podalshe chitannyaCaputo Michael R 2005 Necessary and Sufficient Conditions for Isoperimetric Problems Foundations of Dynamic Economic Analysis Optimal Control Theory and Applications New York Cambridge University Press s 174 210 ISBN 0 521 60368 4 Clarke Frank H Loewen Philip D 1986 The Value Function in Optimal Control Sensitivity Controllability and Time Optimality SIAM Journal on Control and Optimization 24 2 243 263 doi 10 1137 0324014 LaFrance Jeffrey T Barney L Dwayne 1991 The Envelope Theorem in Dynamic Optimization PDF Journal of Economic Dynamics and Control 15 2 355 385 doi 10 1016 0165 1889 91 90018 V Stengel Robert F 1994 Conditions for Optimality Optimal Control and Estimation New York Dover s 201 222 ISBN 0 486 68200 5