Рівняння Беллмана, назване в честь Річарда Беллмана, це — необхідна умова для оптимальності, пов’язаної з методом математичної оптимізації, відомим як динамічне програмування. Рівняння записує “цінність” проблеми рішення в деякій точці часу з точки зору нагороди від деяких початкових рішень разом з “цінністю” залишкової проблеми рішення, що з’явилася на основі тих самих рішень. Це дозволяє розбити проблему динамічної оптимізації на послідовність менших задач, як говорить “принцип оптимальності” Беллмана.
Рівняння Беллмана було вперше використано до інженерної теорії керування та до інших задач прикладної математики, таким чином ставши важливим інструментом у економіці, не дивлячись на те, що базові концепти динамічного програмування були представлені як Джоном фон Нейманом та Оскаром Морґенштерном у книзі “[en]”, так і Абрахамом Вальдом у його дослідженнях послідовного аналізу. Поняття “рівняння Беллмана” зазвичай посилається на рівняння динамічного програмування, асоційоване з задачами оптимізації з [en]. Якщо говорити про задачі оптимізації з неперервним часом, то аналогічне рівняння є диференціальним рівнянням з частинними похідними та називається рівнянням Гамільтона-Якобі-Беллмана.
У дискретному часі будь-яка багатоетапна задача оптимізації може бути вирішена шляхом аналізу відповідного рівняння Беллмана. Таке рівняння може бути знайдено додаванням нових змінних стану (аугментація стану). Однак, слід зауважити, що отримана багатоетапна задача з аугментованим станом має більшу розмірність простору стану ніж оригінальна, що може призвести до недосяжності рішення ввиду “прокляття розмірності”. Альтернативно було показано, якщо функція багатоетапної задачі оптимізації відповідає “зворотно роздільній” структурі, то відповідне рівняння Беллмана може бути знайдено без аугментації стану.
Аналітичні концепти в динамічному програмуванні
Щоб зрозуміти рівняння Беллмана, слід ознайомитися з кількома основними концептами. По-перше, будь-яка задача оптимізації має власну ціль: мінімізація часу подорожі або ціни, максимізація доходу або практичності і т. д.. Математична функція, яка описує дану ціль, називається функцією втрат.
Динамічне програмування розбиває багатоперіодичну проблему планування на менші частини у різних моментах часу. Таким чином, це вимагає чітке спостереження за тим, як еволюціонує ситуація, в якій прийняття рішення є невідворотнім. Інформація про теперішню ситуацію, яка є необхідною, щоб прийняти правильне рішення, називається «станом». Наприклад, щоб дізнатися скільки витратити у кожній точці часу, людям потрібно знати їхнє початкове багатство. Таким чином, багатство буде однією із змінних стану, котрих може бути більше ніж одна.
Змінні, обрані у деякій точці часу, часто називають змінною управління. Наприклад, маючи деяке багатство, люди можуть вирішити скільки витратити зараз. Вибір змінних контролю можливо прирівняти до вибору наступного стану, але, в загальному, на наступний стан впливають не тільки змінні контролю, а і інші фактори. Якщо говорити про приклад, то теперішнє багатство (змінна стану) і витрати (змінна управління) можуть визначити наступний стан (багатство), хоча можуть існувати інші фактори, що також вплинуть на наступний стан.
Метод динамічного програмування описує оптимальний план шляхом знаходження правила, яке говорить про те, чим змінні контролю повинні бути, маючи будь-які значення змінних стану. Наприклад, якщо витрати залежать лише від багатства , то слід шукати функцію , що задає витрати як функцію від багатства. Таке правило, яке задає змінні контролю як функцію від стану, називається функцією стратегії.
За визначенням, оптимальне правило прийняття рішення це те, яке дозволяє досягти найбільше значення цілі. Наприклад, якщо хтось обирає рівень споживання на основі власного багатства, щоб максимізувати рівень щастя (за умови, що щастя H може бути представлено деякою математичною функцією та є чимось, що базується на багатстві), тоді кожен рівень багатства буде асоційований із деяким найбільшим рівнем щастя, . Найбільш можливе значення цілі, записане як функція від стану, називається функцією цінності.
Беллман показав, що динамічна задача оптимізації з дискретним часом може бути представлена у рекурсивній, покроковій формі, відомій як зворотна індукція, шляхом запису відношення між функцією цінності за перший та наступний періоди. Відношення між цими двома функціями цінності називається рівнянням Беллмана. У цьому підході оптимальна стратегія в останній період часу визначається заздалегідь як функція значення змінної стану на той момент, і результуюче оптимальне значення цільової функції виражається через це значення змінної стану. Далі оптимізація передостаннього періоду включає максимізацію суми цільової функції, специфічної для цього періоду, та оптимального значення майбутньої цільової функції, що дає оптимальну стратегію цього періоду залежно від значення змінної стану на передостанній період. Ця логіка продовжується рекурсивно назад у часі, доки не буде отримано правило прийняття рішення про перший період як функцію значення змінної початкового стану шляхом оптимізації суми цільової функції, специфічної для першого періоду і значення функції вартості другого періоду, яка дає значення для всіх майбутніх періодів. Таким чином, рішення для кожного періоду приймається за явного припущення, що всі майбутні рішення будуть прийматися за оптимальною стратегією.
Примітки
- Dixit, Avinash K. (1990). Optimization in economic theory (вид. 2nd ed). Oxford: Oxford University Press. с. 164. ISBN . OCLC 21229896.
- Kirk, Donald E. (1970). Optimal control theory; an introduction. Englewood Cliffs, N.J.,: Prentice-Hall. с. 55. ISBN . OCLC 101663.
- Kirk, Donald E. (1970). Optimal control theory; an introduction. Englewood Cliffs, N.J.,: Prentice-Hall. с. 70. ISBN . OCLC 101663.
- Schwartz, Nancy Lou (1991). Dynamic optimization : the calculus of variations and optimal control in economics and management (вид. 2nd ed). Amsterdam: North-Holland. с. 261. ISBN . OCLC 23941087.
- Kirk, Donald E. (1970). Optimal control theory; an introduction. Englewood Cliffs, N.J.,: Prentice-Hall. с. 88. ISBN . OCLC 101663.
- Jones, Morgan; Peet, Matthew M. (2021-04). Extensions of the Dynamic Programming Framework: Battery Scheduling, Demand Charges, and Renewable Integration. IEEE Transactions on Automatic Control. Т. 66, № 4. с. 1602—1617. doi:10.1109/TAC.2020.3002235. ISSN 0018-9286. Процитовано 17 січня 2022.
- Jones, Morgan; Peet, Matthew M. (2021-05). A generalization of Bellman’s equation with application to path planning, obstacle avoidance and invariant set estimation. Automatica (англ.). Т. 127. с. 109510. doi:10.1016/j.automatica.2021.109510. Процитовано 17 січня 2022.
- Bellman, Richard (2003). Dynamic programming (вид. Dover ed). Mineola, N.Y.: Dover Publications. ISBN . OCLC 829159514.
- Dreyfus, Stuart (2002-02). Richard Bellman on the Birth of Dynamic Programming. Operations Research (англ.). Т. 50, № 1. с. 48—51. doi:10.1287/opre.50.1.48.17791. ISSN 0030-364X. Процитовано 17 січня 2022.
В іншому мовному розділі є повніша стаття Bellman equation(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської.
|
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Rivnyannya Bellmana nazvane v chest Richarda Bellmana ce neobhidna umova dlya optimalnosti pov yazanoyi z metodom matematichnoyi optimizaciyi vidomim yak dinamichne programuvannya Rivnyannya zapisuye cinnist problemi rishennya v deyakij tochci chasu z tochki zoru nagorodi vid deyakih pochatkovih rishen razom z cinnistyu zalishkovoyi problemi rishennya sho z yavilasya na osnovi tih samih rishen Ce dozvolyaye rozbiti problemu dinamichnoyi optimizaciyi na poslidovnist menshih zadach yak govorit princip optimalnosti Bellmana Rivnyannya Bellmana bulo vpershe vikoristano do inzhenernoyi teoriyi keruvannya ta do inshih zadach prikladnoyi matematiki takim chinom stavshi vazhlivim instrumentom u ekonomici ne divlyachis na te sho bazovi koncepti dinamichnogo programuvannya buli predstavleni yak Dzhonom fon Nejmanom ta Oskarom Morgenshternom u knizi en tak i Abrahamom Valdom u jogo doslidzhennyah poslidovnogo analizu Ponyattya rivnyannya Bellmana zazvichaj posilayetsya na rivnyannya dinamichnogo programuvannya asocijovane z zadachami optimizaciyi z en Yaksho govoriti pro zadachi optimizaciyi z neperervnim chasom to analogichne rivnyannya ye diferencialnim rivnyannyam z chastinnimi pohidnimi ta nazivayetsya rivnyannyam Gamiltona Yakobi Bellmana U diskretnomu chasi bud yaka bagatoetapna zadacha optimizaciyi mozhe buti virishena shlyahom analizu vidpovidnogo rivnyannya Bellmana Take rivnyannya mozhe buti znajdeno dodavannyam novih zminnih stanu augmentaciya stanu Odnak slid zauvazhiti sho otrimana bagatoetapna zadacha z augmentovanim stanom maye bilshu rozmirnist prostoru stanu nizh originalna sho mozhe prizvesti do nedosyazhnosti rishennya vvidu proklyattya rozmirnosti Alternativno bulo pokazano yaksho funkciya bagatoetapnoyi zadachi optimizaciyi vidpovidaye zvorotno rozdilnij strukturi to vidpovidne rivnyannya Bellmana mozhe buti znajdeno bez augmentaciyi stanu Analitichni koncepti v dinamichnomu programuvanniShob zrozumiti rivnyannya Bellmana slid oznajomitisya z kilkoma osnovnimi konceptami Po pershe bud yaka zadacha optimizaciyi maye vlasnu cil minimizaciya chasu podorozhi abo cini maksimizaciya dohodu abo praktichnosti i t d Matematichna funkciya yaka opisuye danu cil nazivayetsya funkciyeyu vtrat Dinamichne programuvannya rozbivaye bagatoperiodichnu problemu planuvannya na menshi chastini u riznih momentah chasu Takim chinom ce vimagaye chitke sposterezhennya za tim yak evolyucionuye situaciya v yakij prijnyattya rishennya ye nevidvorotnim Informaciya pro teperishnyu situaciyu yaka ye neobhidnoyu shob prijnyati pravilne rishennya nazivayetsya stanom Napriklad shob diznatisya skilki vitratiti u kozhnij tochci chasu lyudyam potribno znati yihnye pochatkove bagatstvo Takim chinom bagatstvo W displaystyle W bude odniyeyu iz zminnih stanu kotrih mozhe buti bilshe nizh odna Zminni obrani u deyakij tochci chasu chasto nazivayut zminnoyu upravlinnya Napriklad mayuchi deyake bagatstvo lyudi mozhut virishiti skilki vitratiti zaraz Vibir zminnih kontrolyu mozhlivo pririvnyati do viboru nastupnogo stanu ale v zagalnomu na nastupnij stan vplivayut ne tilki zminni kontrolyu a i inshi faktori Yaksho govoriti pro priklad to teperishnye bagatstvo zminna stanu i vitrati zminna upravlinnya mozhut viznachiti nastupnij stan bagatstvo hocha mozhut isnuvati inshi faktori sho takozh vplinut na nastupnij stan Metod dinamichnogo programuvannya opisuye optimalnij plan shlyahom znahodzhennya pravila yake govorit pro te chim zminni kontrolyu povinni buti mayuchi bud yaki znachennya zminnih stanu Napriklad yaksho vitrati c displaystyle c zalezhat lishe vid bagatstva W displaystyle W to slid shukati funkciyu c W displaystyle c W sho zadaye vitrati yak funkciyu vid bagatstva Take pravilo yake zadaye zminni kontrolyu yak funkciyu vid stanu nazivayetsya funkciyeyu strategiyi Za viznachennyam optimalne pravilo prijnyattya rishennya ce te yake dozvolyaye dosyagti najbilshe znachennya cili Napriklad yaksho htos obiraye riven spozhivannya na osnovi vlasnogo bagatstva shob maksimizuvati riven shastya za umovi sho shastya H mozhe buti predstavleno deyakoyu matematichnoyu funkciyeyu ta ye chimos sho bazuyetsya na bagatstvi todi kozhen riven bagatstva bude asocijovanij iz deyakim najbilshim rivnem shastya H W displaystyle H W Najbilsh mozhlive znachennya cili zapisane yak funkciya vid stanu nazivayetsya funkciyeyu cinnosti Bellman pokazav sho dinamichna zadacha optimizaciyi z diskretnim chasom mozhe buti predstavlena u rekursivnij pokrokovij formi vidomij yak zvorotna indukciya shlyahom zapisu vidnoshennya mizh funkciyeyu cinnosti za pershij ta nastupnij periodi Vidnoshennya mizh cimi dvoma funkciyami cinnosti nazivayetsya rivnyannyam Bellmana U comu pidhodi optimalna strategiya v ostannij period chasu viznachayetsya zazdalegid yak funkciya znachennya zminnoyi stanu na toj moment i rezultuyuche optimalne znachennya cilovoyi funkciyi virazhayetsya cherez ce znachennya zminnoyi stanu Dali optimizaciya peredostannogo periodu vklyuchaye maksimizaciyu sumi cilovoyi funkciyi specifichnoyi dlya cogo periodu ta optimalnogo znachennya majbutnoyi cilovoyi funkciyi sho daye optimalnu strategiyu cogo periodu zalezhno vid znachennya zminnoyi stanu na peredostannij period Cya logika prodovzhuyetsya rekursivno nazad u chasi doki ne bude otrimano pravilo prijnyattya rishennya pro pershij period yak funkciyu znachennya zminnoyi pochatkovogo stanu shlyahom optimizaciyi sumi cilovoyi funkciyi specifichnoyi dlya pershogo periodu i znachennya funkciyi vartosti drugogo periodu yaka daye znachennya dlya vsih majbutnih periodiv Takim chinom rishennya dlya kozhnogo periodu prijmayetsya za yavnogo pripushennya sho vsi majbutni rishennya budut prijmatisya za optimalnoyu strategiyeyu PrimitkiDixit Avinash K 1990 Optimization in economic theory vid 2nd ed Oxford Oxford University Press s 164 ISBN 0 19 877211 4 OCLC 21229896 Kirk Donald E 1970 Optimal control theory an introduction Englewood Cliffs N J Prentice Hall s 55 ISBN 0 13 638098 0 OCLC 101663 Kirk Donald E 1970 Optimal control theory an introduction Englewood Cliffs N J Prentice Hall s 70 ISBN 0 13 638098 0 OCLC 101663 Schwartz Nancy Lou 1991 Dynamic optimization the calculus of variations and optimal control in economics and management vid 2nd ed Amsterdam North Holland s 261 ISBN 0 444 01609 0 OCLC 23941087 Kirk Donald E 1970 Optimal control theory an introduction Englewood Cliffs N J Prentice Hall s 88 ISBN 0 13 638098 0 OCLC 101663 Jones Morgan Peet Matthew M 2021 04 Extensions of the Dynamic Programming Framework Battery Scheduling Demand Charges and Renewable Integration IEEE Transactions on Automatic Control T 66 4 s 1602 1617 doi 10 1109 TAC 2020 3002235 ISSN 0018 9286 Procitovano 17 sichnya 2022 Jones Morgan Peet Matthew M 2021 05 A generalization of Bellman s equation with application to path planning obstacle avoidance and invariant set estimation Automatica angl T 127 s 109510 doi 10 1016 j automatica 2021 109510 Procitovano 17 sichnya 2022 Bellman Richard 2003 Dynamic programming vid Dover ed Mineola N Y Dover Publications ISBN 978 0 486 31719 9 OCLC 829159514 Dreyfus Stuart 2002 02 Richard Bellman on the Birth of Dynamic Programming Operations Research angl T 50 1 s 48 51 doi 10 1287 opre 50 1 48 17791 ISSN 0030 364X Procitovano 17 sichnya 2022 V inshomu movnomu rozdili ye povnisha stattya Bellman equation angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad