Ма́рковські проце́си вирі́шування (МПВ, англ. Markov decision process, MDP) забезпечують математичну систему для моделювання ухвалення рішень у ситуаціях, в яких наслідки є частково випадковими, а частково контрольованими ухвалювачем рішення. МПВ є корисними для дослідження широкого спектра задач оптимізації, розв'язуваних динамічним програмуванням та навчанням з підкріпленням. МПВ були відомі щонайменше з 1950-х років (пор. Bellman, 1957). Основна маса досліджень марковських процесів вирішування стала результатом книги [en], опублікованої 1960 року, «Динамічне програмування та марковські процеси» (англ. Dynamic Programming and Markov Processes). Їх застосовують у широкій області дисциплін, включно з робототехнікою, автоматизованим керуванням, економікою та виробництвом.
Якщо точніше, то марковський процес вирішування є стохастичним процесом керування [en]. На кожному кроці часу процес перебуває в якомусь стані , і ухвалювач рішення може обрати будь-яку дію , доступну в стані . Процес реагує на наступному кроці часу випадковим переходом до нового стану і наданням ухвалювачеві рішення відповідної винагороди (англ. reward) .
Ймовірність переходу процесу до його нового стану знаходиться під впливом обраної дії. Конкретно, вона задається функцією переходу стану . Таким чином, наступний стан залежить від поточного стану та від дії ухвалювача рішення . Але для заданих та він є умовно незалежним від усіх попередніх станів та дій; іншими словами, переходи станів процесу МПВ задовольняють марковську властивість.
Марковські процеси вирішування є розширенням марковських ланцюгів; різниця полягає в доданні дій (що дає вибір) та винагород (що дає мотивацію). І навпаки, якщо для кожного стану існує лише одна дія (наприклад, «чекати») та всі винагороди є однаковими (наприклад, «нуль»), то марковський процес вирішування зводиться до марковського ланцюга.
Визначення
Марковський процес вирішування є 5-кою , де
- є скінченною множиною станів,
- є скінченною множиною дій (як альтернатива, є скінченною множиною дій, доступних зі стану ),
- є ймовірністю того, що дія в стані в момент часу призведе до стану в момент часу ,
- є безпосередньою винагородою (або очікуваною безпосередньою винагородою), отримуваною після переходу до стану зі стану ,
- є (коефіцієнтом знецінювання) (англ. discount factor), який представляє відмінність важливості майбутніх та поточних винагород.
(Зауваження: Теорія марковських процесів вирішування не стверджує, що чи є скінченними, але основні алгоритми, наведені нижче, передбачають, що вони є скінченними.)
Задача
Основною задачею МПВ є знайти «стратегію» (англ. policy) для ухвалювача рішень: функцію , яка визначає дію , яку ухвалювач рішення обере в стані . Зауважте, що щойно марковський процес вирішування поєднано таким чином зі стратегією, то це фіксує дію для кожного стану, і отримане в результаті поєднання поводиться як марковський ланцюг.
Метою є обрати таку стратегію , яка максимізуватиме деяку кумулятивну функцію випадкових винагород, зазвичай — очікувану знецінену функцію над потенційно нескінченним горизонтом:
- (де ми обираємо )
де є (коефіцієнтом знецінювання), і задовольняє . (Наприклад, , де інтенсивністю знецінювання є .) Зазвичай є близьким до 1.
Завдяки марковській властивості, оптимальну стратегію для цієї конкретної задачі насправді може бути записано як функцію лише від , як і передбачалося вище.
Алгоритми
МПВ може бути розв'язувано лінійним програмуванням, або динамічним програмуванням. Далі ми представимо останній підхід.
Припустімо, що ми знаємо функцію переходу стану та функцію винагороди , і хочемо обчислити стратегію, яка максимізує очікувану знецінену винагороду.
Стандартне сімейство алгоритмів для обчислення цієї оптимальної стратегії вимагає зберігання двох масивів, проіндексованих за станом: цінностей (англ. value) , який містить дійсні значення, та стратегії , який містить дії. По завершенню алгоритму, міститиме розв'язок, а міститиме знецінену суму винагород, яку буде зароблено (в середньому) при слідуванні цим розв'язком зі стану .
Алгоритм має наступні два види кроків, які повторюються в певному порядку для всіх станів, допоки подальших змін вже не відбуватиметься. Вони визначаються рекурсивно наступним чином:
Їхній порядок залежить від варіанту алгоритму; можна робити їх одночасно для всіх станів, або стан за станом, і частіше для одних станів, ніж для інших. Якщо жоден зі станів не виключатиметься назавжди з будь-якого з кроків, то алгоритм зрештою прийде до правильного розв'язку.
Відомі варіанти
Ітерація за цінностями
В ітерації за цінностями (англ. value iteration, Bellman, 1957), яку також називають зворотною індукцією, функція не використовується; натомість значення обчислюється в межах за потребою. Метод ітерації за цінностями для МПВ увійшов до праці Ллойда Шеплі 1953 року про стохастичні ігри як окремий випадок, але це було визнано лише згодом.
Підставлення обчислення до обчислення дає поєднаний крок:
де є номером ітерації. Ітерація за цінностями починається з та як припущення про функцію цінності. Потім виконується ітерування з повторним обчисленням для всіх станів , поки не збіжиться, коли ліва сторона дорівнюватиме правій (що є «рівнянням Беллмана» для цієї задачі).
Ітерація за стратегіями
В ітерації за стратегіями (англ. policy iteration, Howard, 1960) перший крок виконується один раз, а потім другий крок повторюється до збіжності. Потім перший крок виконується знову, і так далі.
Замість повторювання другого кроку до збіжності його може бути сформульовано та розв'язано як набір лінійних рівнянь.
Цей варіант має перевагу в тому, що існує чітка умова зупинки: коли масив не змінюється в процесі застосування кроку 1 до всіх станів, алгоритм завершується.
Видозмінена ітерація за стратегіями
У видозміненій ітерації за стратегіями (англ. modified policy iteration, van Nunen, 1976, Puterman та Shin, 1978) перший крок виконується один раз, а потім другий крок повторюється кілька разів. Потім знову перший крок виконується один раз, і так далі.
Пріоритетне підмітання
В цьому варіанті (англ. prioritized sweeping) кроки застосовуються до станів із надаванням переваги тим, які є якимось чином важливими — чи то на основі алгоритму (нещодавно були великі зміни в або навколо цих станів), чи то на основі використання (ці стани знаходяться близько до початкового стану, або іншим чином становлять інтерес для особи або програми, яка застосовує цей алгоритм).
Розширення та узагальнення
Марковський процес вирішування є стохастичною грою з лише одним гравцем.
Часткова спостережуваність
Детальніші відомості з цієї теми ви можете знайти в статті [en].
Наведене вище розв'язання передбачає, що в той момент, коли треба вирішувати, яку дію вчинити, стан є відомим; інакше обчислено бути не може. Якщо це припущення не є вірним, задачу називають частково спостережуваним марковським процесом вирішування (ЧСМПВ, англ. partially observable Markov decision process, POMDP).
Головний поступ у цій області було забезпечено Бурнетасом та Катехакісом в «Оптимальних адаптивних стратегіях для марковських процесів вирішування». В цій праці було побудовано клас адаптивних стратегій, які володіють властивостями рівномірно максимального темпу збіжності для загальної очікуваної винагороди скінченного інтервалу, за припущень скінченних просторів стан-дія та нескоротності закону переходу. Ці стратегії приписують, щоби вибір дій на кожному стані в кожен момент часу ґрунтувався на показниках, які є роздуваннями правої сторони рівнянь оптимальності очікуваної усередненої винагороди.
Навчання з підкріпленням
Якщо ймовірності винагород є невідомими, то задача є задачею навчання з підкріпленням (Sutton та Barto, 1998).
Для цього корисно визначити наступну функцію, яка відповідає вчиненню дії з продовженням оптимальним чином (або відповідно до будь-якої наявної в даний момент стратегії):
І хоча ця функція також є невідомою, досвід під час навчання ґрунтується на парах (разом з наслідком ; тобто, «Я був у стані , спробував вчинити , і сталося »). Таким чином, є масив , і досвід використовується для його безпосереднього уточнення. Це відоме як Q-навчання.
Навчання з підкріпленням може розв'язувати марковські процеси вирішування без явного вказання ймовірностей переходів; значення ймовірностей переходів необхідні для ітерації за цінностями та за стратегіями. В навчанні з підкріпленнями замість явного вказання ймовірностей переходів доступ до них отримується через імітатор, який зазвичай багаторазово перезапускається з рівномірного випадкового початкового стану. Навчання з підкріпленням також може поєднуватися з наближенням функцій, щоби можна було братися за задачі з дуже великим числом станів.
Автомати з самонавчанням
Детальніші відомості з цієї теми ви можете знайти в статті [en].
Ще одне застосування процесу МПВ в теорії машинного навчання називається автоматами з самонавчанням. Воно також є одним із типів навчання з підкріпленням, якщо середовище має стохастичний характер. Перше детальне дослідження про автомати з самонавчанням (англ. learning automata) здійснили [en] та Татачар (1974), в якому їх було первісно описано явно як скінченні автомати. Подібно до навчання з підкріпленням, алгоритм автоматів із самонавчанням також має перевагу розв'язання задач, у яких імовірності або винагороди є невідомими. Відмінність автоматів із самонавчанням від Q-навчання полягає в тому, що вони не включають пам'ять Q-значень, а для знаходження результату навчання уточнюють ймовірності дій безпосередньо. Автомати з самонавчанням є однією зі схем навчання з суворим доведенням збіжності.
В теорії автоматів із самонавчанням стохастичний автомат (англ. stochastic automaton) складається з:
- множини можливих входів x,
- множини можливих внутрішніх станів Φ = { Φ1, …, Φs },
- множини можливих виходів, або дій, α = { α1, …, αr }, де r≤s,
- вектора початкової ймовірності станів p(0) = ≪ p1(0), …, ps(0) ≫,
- обчислюваної функції A, яка після кожного кроку часу t породжує p(t+1) з p(t), поточного входу та поточного стану, і
- функції G: Φ → α, яка породжує вихід на кожному кроці часу.
Стани такого автомату відповідають станам «марковського процесу дискретного часу з дискретними параметрами». На кожному кроці часу t=0,1,2,3,… автомат читає вхід зі свого середовища, уточнює P(t) до P(t+1) за допомогою A, випадково обирає наступний стан відповідно до ймовірностей P(t+1) та виводить відповідну дію. Середовище автомата, в свою чергу, читає цю дію, і надсилає автоматові наступний вхід.
Інтерпретація в термінах теорії категорій
Крім як через винагороди, марковський процес вирішування можна розуміти і в термінах теорії категорій. А саме, нехай позначає [en] з породжувальною множиною . Нехай позначає [en]монади Жирі [ 6 травня 2016 у Wayback Machine.]. Тоді функтор кодує як множину станів , так і функцію ймовірностей .
Таким чином, марковський процес вирішування може бути узагальнено з моноїдів (категорій з одним об'єктом) на довільні категорії. Результат можна назвати контекстно-залежним марковським процесом вирішування (англ. context-dependent Markov decision process), оскільки перехід від одного об'єкту до іншого в змінює множину доступних дій та множину можливих станів.
Марковський процес вирішування безперервного часу
В марковських процесах вирішування дискретного часу рішення здійснюються через дискретні проміжки часу. Проте для марковських процесів вирішування безперервного часу (англ. Continuous-time Markov Decision Processes) рішення можуть здійснюватися в будь-який час, який обере ухвалювач рішень. У порівнянні з марковськими процесами вирішування дискретного часу, марковські процеси вирішування безперервного часу можуть краще моделювати процес ухвалювання рішень для системи, яка має [en], тобто системи, динаміка якої визначається диференціальними рівняннями з частинними похідними.
Визначення
Для обговорення марковських процесів вирішування безперервного часу введімо два набори позначень:
Якщо простір станів та простір дій є скінченними,
- : простір станів (англ. State space);
- : простір дій (англ. Action space);
- : , функція інтенсивності переходів (англ. transition rate function);
- : , функція винагороди (англ. reward function).
Якщо простір станів та простір дій є неперервними,
- : простір станів (англ. state space);
- : простір можливого керування (англ. space of possible control);
- : , функція інтенсивності переходів (англ. transition rate function);
- : , функція інтенсивності винагороди (англ. reward rate function), така, що , де є функцією винагороди, яку ми обговорювали в попередньому випадку.
Задача
Як і в марковських процесах вирішування дискретного часу, в марковському процесі вирішування безперервного часу ми хочемо знаходити оптимальну стратегію (англ. policy) або керування (англ. control), яке давало би нам оптимальну очікувану проінтегровану винагороду:
Де
Формулювання лінійного програмування
Якщо простори станів та дій є скінченними, то для пошуку оптимальної стратегії ми можемо використовувати лінійне програмування, що було одним із найперших застосованих підходів. Тут ми розглядаємо лише ергодичну модель, яка означає, що наш МПВ безперервного часу стає ергодичним марковським ланцюгом безперервного часу за сталої стратегії. За цього припущення, хоча ухвалювач рішення і може здійснювати рішення в будь-який час у поточному стані, він не може виграти більше, здійснюючи більше ніж одну дію. Для нього краще здійснювати дію лише в той момент часу, коли система переходить з поточного стану до іншого. За деяких умов (детальніше див. Наслідок 3.14 у Continuous-Time Markov Decision Processes [ 2 лютого 2012 у Wayback Machine.]), якщо наша функція оптимальної цінності є незалежною від стану , то ми матимемо наступну нерівність:
Якщо існує функція , то буде найменшим , яке задовольняє наведене вище рівняння. Щоби знаходити , ми можемо застосовувати наступну модель лінійного програмування:
- Пряма лінійна програма (П-ЛП, англ. primal linear program, P-LP)
- Двоїста лінійна програма (Д-ЛП, англ. dual linear program, D-LP)
є придатним розв'язком Д-ЛП, якщо є невиродженою, і задовольняє обмеження задачі Д-ЛП. Придатний розв'язок Д-ЛП називають оптимальним розв'язком, якщо
для всіх придатних розв'язків Д-ЛП . Щойно ми знайшли оптимальний розв'язок , ми можемо використовувати його для встановлення оптимальних стратегій.
Рівняння Гамільтона — Якобі — Беллмана
Якщо простір станів та простір дій в МПВ безперервного часу є неперервними, то оптимальний критерій можна знаходити шляхом розв'язання диференціального рівняння Гамільтона — Якобі — Беллмана (ГЯБ, англ. Hamilton–Jacobi–Bellman equation, HJB) в часткових похідних. Для обговорення рівняння ГЯБ нам необхідно переформулювати нашу задачу:
є функцією остаточної винагороди (англ. terminal reward function), є вектором стану системи, є вектором керування системою, який ми намагаємося знайти. показує, як стан системи змінюється з часом. Рівняння Гамільтона — Якобі — Беллмана є таким:
Ми можемо розв'язувати це рівняння, щоби знаходити оптимальне керування , яке давало би нам оптимальну цінність
Застосування
Марковські процеси вирішування безперервного часу мають застосування в системах масового обслуговування, процесах епідемії та [en].
Альтернативні позначення
Термінологія та позначення МПВ не є остаточно узгодженими. Є дві основні течії — одна зосереджується на задачах максимізації з контекстів на кшталт економіки, застосовуючи терміни дія (англ. action), винагорода (англ. reward), цінність (англ. value), та називаючи коефіцієнт знецінювання (англ. discount factor) або , в той час як інша зосереджується на задачах мінімізації з техніки та навігації, застосовуючи терміни керування (англ. control), витрати (англ. cost), остаточні витрати (англ. cost-to-go), і називаючи коефіцієнт знецінювання (англ. discount factor) . На додачу, різниться й позначення ймовірності переходу.
в цій статті | альтернативне | коментар |
---|---|---|
дія | керування | |
винагорода | витрати | є від'ємною |
цінність | остаточні витрати | є від'ємною |
стратегія | стратегія | |
коефіцієнт знецінювання | коефіцієнт знецінювання | |
ймовірність переходу | ймовірність переходу |
На додачу, ймовірність переходу іноді записують як , або, рідше, як .
Обмежені марковські процеси вирішування
Обмежені марковські процеси вирішування (ОМПВ, англ. Constrained Markov Decision Process, CMDP) є розширеннями марковських процесів вирішування (МПВ). Між МПВ та ОМПВ є три докорінні відмінності.
- Після застосування дії замість однієї витрати несуться декілька витрат.
- ОМПВ розв'язуються лише за допомогою лінійних програм, а динамічне програмування не працює.
- Остаточна стратегія залежить від початкового стану.
Існує ряд застосувань ОМПВ. Нещодавно їх було застосовано в сценаріях планування руху в робототехніці.
Див. також
- [en]
- [en]
- [en]
- Динамічне програмування
- Рівняння Беллмана для застосувань в економіці.
- Рівняння Гамільтона — Якобі — Беллмана
- Оптимальне керування
- [en]
- [en]
- Стохастичні ігри
- Q-навчання
Примітки
Джерела
- Bellman, R. (1957). . Journal of Mathematics and Mechanics. 6. Архів оригіналу за 30 квітня 2021. Процитовано 8 вересня 2016. (англ.)
- Bellman., R. E. (2003) [1957]. Dynamic Programming (вид. Dover paperback edition). Princeton, NJ: Princeton University Press. ISBN . (англ.)
- Howard, Ronald A. (1960). (PDF). The M.I.T. Press. Архів оригіналу (PDF) за 9 жовтня 2011. Процитовано 8 вересня 2016. (англ.)
- Shapley, Lloyd (1953). Stochastic Games. Proceedings of National Academy of Science. 39: 1095—1100. (англ.)
- Kallenberg, Lodewijk (2002). Finite state and action MDPs. У Feinberg, Eugene A.; Shwartz, Adam (ред.). Handbook of Markov decision processes: methods and applications. Springer. ISBN . (англ.)
- Bertsekas, D. (1995). Dynamic Programming and Optimal Control. Т. 2. MA: Athena. (англ.)
- Burnetas, A.N.; Katehakis, M. N. (1997). Optimal Adaptive Policies for Markov Decision Processes. Mathematics of Operations Research. 22 (1): 222. doi:10.1287/moor.22.1.222. (англ.)
- Feinberg, E.A.; Shwartz, A., ред. (2002). Handbook of Markov Decision Processes. Boston, MA: Kluwer. (англ.)
- Derman, C. (1970). Finite state Markovian decision processes. Academic Press. (англ.)
- Puterman., M. L. (1994). Markov Decision Processes. Wiley. (англ.)
- Tijms., H.C. (2003). A First Course in Stochastic Models. Wiley. (англ.)
- Sutton, R. S.; Barto, A. G. (1998). . Cambridge, MA: The MIT Press. Архів оригіналу за 11 грудня 2013. Процитовано 8 вересня 2016. (англ.)
- van Nunen, J.A. E. E (1976). A set of successive approximation methods for discounted Markovian decision problems. Z. Operations Research. 20: 203—208. (англ.)
- ; Thathachar, M. A. L. (1 липня 1974). Learning Automata - A Survey. IEEE Transactions on Systems, Man, and Cybernetics. SMC-4 (4): 323—334. doi:10.1109/TSMC.1974.5408453. ISSN 0018-9472. (англ.)
- ; Thathachar, Mandayam A. L. (1989). (англ.). Prentice Hall. ISBN . Архів оригіналу за 16 березня 2017. Процитовано 8 вересня 2016. (англ.)
- Meyn, S. P. (2007). . Cambridge University Press. ISBN . Архів оригіналу за 19 червня 2010. Додаток містить скорочену . Архів оригіналу за 18 грудня 2012. (англ.)
- Ross, S. M. (1983). Introduction to stochastic dynamic programming. Academic press. (англ.)
- Guo, X.; Hernández-Lerma, O. (2009). . Springer. Архів оригіналу за 2 лютого 2012. Процитовано 8 вересня 2016. (англ.)
- Puterman, M. L.; Shin, M. C. (1978). Modified Policy Iteration Algorithms for Discounted Markov Decision Problems. Management Science. 24. (англ.)
- Altman, Eitan (1999). Constrained Markov decision processes. Т. 7. CRC Press. (англ.)
- Feyzabadi, S.; Carpin, S. (18-22 Aug 2014). Risk-aware path planning using hierarchical constrained Markov Decision Processes. Automation Science and Engineering (CASE). IEEE International Conference. с. 297, 303. (англ.)
Посилання
- MDP Toolbox для MATLAB, GNU Octave, Scilab та R [ 13 липня 2016 у Wayback Machine.] Інструментарій марковських процесів вирішування (МПВ).
- — Чудовий навчальний посібник та інструментарій Matlab для роботи з МПВ. (англ.)
- Інструментарій МПВ для Python [ 2 жовтня 2016 у Wayback Machine.] Пакет для розв'язання МПВ
- Reinforcement Learning[недоступне посилання з квітня 2019] Введення від Річарда Саттона та Ендрю Барто (англ.)
- SPUDD [ 24 квітня 2016 у Wayback Machine.] Структурований розв'язувач МПВ для завантаження від Jesse Hoey
- Learning to Solve Markovian Decision Processes [ 29 січня 2012 у Wayback Machine.] від Satinder P. Singh [ 22 лютого 2012 у Wayback Machine.] (англ.)
- Optimal Adaptive Policies for Markov Decision Processes від Burnetas та Katehakis (1997). (англ.)
В іншому мовному розділі є повніша стаття Markov decision process(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської. (листопад 2023)
|
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ma rkovski proce si viri shuvannya MPV angl Markov decision process MDP zabezpechuyut matematichnu sistemu dlya modelyuvannya uhvalennya rishen u situaciyah v yakih naslidki ye chastkovo vipadkovimi a chastkovo kontrolovanimi uhvalyuvachem rishennya MPV ye korisnimi dlya doslidzhennya shirokogo spektra zadach optimizaciyi rozv yazuvanih dinamichnim programuvannyam ta navchannyam z pidkriplennyam MPV buli vidomi shonajmenshe z 1950 h rokiv por Bellman 1957 Osnovna masa doslidzhen markovskih procesiv virishuvannya stala rezultatom knigi en opublikovanoyi 1960 roku Dinamichne programuvannya ta markovski procesi angl Dynamic Programming and Markov Processes Yih zastosovuyut u shirokij oblasti disciplin vklyuchno z robototehnikoyu avtomatizovanim keruvannyam ekonomikoyu ta virobnictvom Yaksho tochnishe to markovskij proces virishuvannya ye stohastichnim procesom keruvannya en Na kozhnomu kroci chasu proces perebuvaye v yakomus stani s displaystyle s i uhvalyuvach rishennya mozhe obrati bud yaku diyu a displaystyle a dostupnu v stani s displaystyle s Proces reaguye na nastupnomu kroci chasu vipadkovim perehodom do novogo stanu s displaystyle s i nadannyam uhvalyuvachevi rishennya vidpovidnoyi vinagorodi angl reward Ra s s displaystyle R a s s Jmovirnist perehodu procesu do jogo novogo stanu s displaystyle s znahoditsya pid vplivom obranoyi diyi Konkretno vona zadayetsya funkciyeyu perehodu stanu Pa s s displaystyle P a s s Takim chinom nastupnij stan s displaystyle s zalezhit vid potochnogo stanu s displaystyle s ta vid diyi uhvalyuvacha rishennya a displaystyle a Ale dlya zadanih s displaystyle s ta a displaystyle a vin ye umovno nezalezhnim vid usih poperednih staniv ta dij inshimi slovami perehodi staniv procesu MPV zadovolnyayut markovsku vlastivist Markovski procesi virishuvannya ye rozshirennyam markovskih lancyugiv riznicya polyagaye v dodanni dij sho daye vibir ta vinagorod sho daye motivaciyu I navpaki yaksho dlya kozhnogo stanu isnuye lishe odna diya napriklad chekati ta vsi vinagorodi ye odnakovimi napriklad nul to markovskij proces virishuvannya zvoditsya do markovskogo lancyuga ViznachennyaPriklad prostogo MPV z troma stanami ta dvoma diyami Markovskij proces virishuvannya ye 5 koyu S A P R g displaystyle S A P cdot cdot cdot R cdot cdot cdot gamma de S displaystyle S ye skinchennoyu mnozhinoyu staniv A displaystyle A ye skinchennoyu mnozhinoyu dij yak alternativa As displaystyle A s ye skinchennoyu mnozhinoyu dij dostupnih zi stanu s displaystyle s Pa s s Pr st 1 s st s at a displaystyle P a s s Pr s t 1 s mid s t s a t a ye jmovirnistyu togo sho diya a displaystyle a v stani s displaystyle s v moment chasu t displaystyle t prizvede do stanu s displaystyle s v moment chasu t 1 displaystyle t 1 Ra s s displaystyle R a s s ye bezposerednoyu vinagorodoyu abo ochikuvanoyu bezposerednoyu vinagorodoyu otrimuvanoyu pislya perehodu do stanu s displaystyle s zi stanu s displaystyle s g 0 1 displaystyle gamma in 0 1 ye koeficiyentom znecinyuvannya angl discount factor yakij predstavlyaye vidminnist vazhlivosti majbutnih ta potochnih vinagorod Zauvazhennya Teoriya markovskih procesiv virishuvannya ne stverdzhuye sho S displaystyle S chi A displaystyle A ye skinchennimi ale osnovni algoritmi navedeni nizhche peredbachayut sho voni ye skinchennimi ZadachaOsnovnoyu zadacheyu MPV ye znajti strategiyu angl policy dlya uhvalyuvacha rishen funkciyu p displaystyle pi yaka viznachaye diyu p s displaystyle pi s yaku uhvalyuvach rishennya obere v stani s displaystyle s Zauvazhte sho shojno markovskij proces virishuvannya poyednano takim chinom zi strategiyeyu to ce fiksuye diyu dlya kozhnogo stanu i otrimane v rezultati poyednannya povoditsya yak markovskij lancyug Metoyu ye obrati taku strategiyu p displaystyle pi yaka maksimizuvatime deyaku kumulyativnu funkciyu vipadkovih vinagorod zazvichaj ochikuvanu znecinenu funkciyu nad potencijno neskinchennim gorizontom t 0 gtRat st st 1 displaystyle sum t 0 infty gamma t R a t s t s t 1 de mi obirayemo at p st displaystyle a t pi s t de g displaystyle gamma ye koeficiyentom znecinyuvannya i zadovolnyaye 0 g lt 1 displaystyle 0 leq gamma lt 1 Napriklad g 1 1 r displaystyle gamma 1 1 r de intensivnistyu znecinyuvannya ye r displaystyle r Zazvichaj g displaystyle gamma ye blizkim do 1 Zavdyaki markovskij vlastivosti optimalnu strategiyu dlya ciyeyi konkretnoyi zadachi naspravdi mozhe buti zapisano yak funkciyu lishe vid s displaystyle s yak i peredbachalosya vishe AlgoritmiMPV mozhe buti rozv yazuvano linijnim programuvannyam abo dinamichnim programuvannyam Dali mi predstavimo ostannij pidhid Pripustimo sho mi znayemo funkciyu perehodu stanu P displaystyle P ta funkciyu vinagorodi R displaystyle R i hochemo obchisliti strategiyu yaka maksimizuye ochikuvanu znecinenu vinagorodu Standartne simejstvo algoritmiv dlya obchislennya ciyeyi optimalnoyi strategiyi vimagaye zberigannya dvoh masiviv proindeksovanih za stanom cinnostej angl value V displaystyle V yakij mistit dijsni znachennya ta strategiyi p displaystyle pi yakij mistit diyi Po zavershennyu algoritmu p displaystyle pi mistitime rozv yazok a V s displaystyle V s mistitime znecinenu sumu vinagorod yaku bude zarobleno v serednomu pri sliduvanni cim rozv yazkom zi stanu s displaystyle s Algoritm maye nastupni dva vidi krokiv yaki povtoryuyutsya v pevnomu poryadku dlya vsih staniv dopoki podalshih zmin vzhe ne vidbuvatimetsya Voni viznachayutsya rekursivno nastupnim chinom p s arg maxa s Pa s s Ra s s gV s displaystyle pi s arg max a left sum s P a s s left R a s s gamma V s right right V s s Pp s s s Rp s s s gV s displaystyle V s sum s P pi s s s left R pi s s s gamma V s right Yihnij poryadok zalezhit vid variantu algoritmu mozhna robiti yih odnochasno dlya vsih staniv abo stan za stanom i chastishe dlya odnih staniv nizh dlya inshih Yaksho zhoden zi staniv ne viklyuchatimetsya nazavzhdi z bud yakogo z krokiv to algoritm zreshtoyu prijde do pravilnogo rozv yazku Vidomi varianti Iteraciya za cinnostyami V iteraciyi za cinnostyami angl value iteration Bellman 1957 yaku takozh nazivayut zvorotnoyu indukciyeyu funkciya p displaystyle pi ne vikoristovuyetsya natomist znachennya p s displaystyle pi s obchislyuyetsya v mezhah V s displaystyle V s za potreboyu Metod iteraciyi za cinnostyami dlya MPV uvijshov do praci Llojda Shepli 1953 roku pro stohastichni igri yak okremij vipadok ale ce bulo viznano lishe zgodom Pidstavlennya obchislennya p s displaystyle pi s do obchislennya V s displaystyle V s daye poyednanij krok Vi 1 s maxa s Pa s s Ra s s gVi s displaystyle V i 1 s max a left sum s P a s s left R a s s gamma V i s right right de i displaystyle i ye nomerom iteraciyi Iteraciya za cinnostyami pochinayetsya z i 0 displaystyle i 0 ta V0 displaystyle V 0 yak pripushennya pro funkciyu cinnosti Potim vikonuyetsya iteruvannya z povtornim obchislennyam Vi 1 displaystyle V i 1 dlya vsih staniv s displaystyle s poki V displaystyle V ne zbizhitsya koli liva storona dorivnyuvatime pravij sho ye rivnyannyam Bellmana dlya ciyeyi zadachi Iteraciya za strategiyami V iteraciyi za strategiyami angl policy iteration Howard 1960 pershij krok vikonuyetsya odin raz a potim drugij krok povtoryuyetsya do zbizhnosti Potim pershij krok vikonuyetsya znovu i tak dali Zamist povtoryuvannya drugogo kroku do zbizhnosti jogo mozhe buti sformulovano ta rozv yazano yak nabir linijnih rivnyan Cej variant maye perevagu v tomu sho isnuye chitka umova zupinki koli masiv p displaystyle pi ne zminyuyetsya v procesi zastosuvannya kroku 1 do vsih staniv algoritm zavershuyetsya Vidozminena iteraciya za strategiyami U vidozminenij iteraciyi za strategiyami angl modified policy iteration van Nunen 1976 Puterman ta Shin 1978 pershij krok vikonuyetsya odin raz a potim drugij krok povtoryuyetsya kilka raziv Potim znovu pershij krok vikonuyetsya odin raz i tak dali Prioritetne pidmitannya V comu varianti angl prioritized sweeping kroki zastosovuyutsya do staniv iz nadavannyam perevagi tim yaki ye yakimos chinom vazhlivimi chi to na osnovi algoritmu neshodavno buli veliki zmini v V displaystyle V abo p displaystyle pi navkolo cih staniv chi to na osnovi vikoristannya ci stani znahodyatsya blizko do pochatkovogo stanu abo inshim chinom stanovlyat interes dlya osobi abo programi yaka zastosovuye cej algoritm Rozshirennya ta uzagalnennyaMarkovskij proces virishuvannya ye stohastichnoyu groyu z lishe odnim gravcem Chastkova sposterezhuvanist Detalnishi vidomosti z ciyeyi temi vi mozhete znajti v statti en Navedene vishe rozv yazannya peredbachaye sho v toj moment koli treba virishuvati yaku diyu vchiniti stan s displaystyle s ye vidomim inakshe p s displaystyle pi s obchisleno buti ne mozhe Yaksho ce pripushennya ne ye virnim zadachu nazivayut chastkovo sposterezhuvanim markovskim procesom virishuvannya ChSMPV angl partially observable Markov decision process POMDP Golovnij postup u cij oblasti bulo zabezpecheno Burnetasom ta Katehakisom v Optimalnih adaptivnih strategiyah dlya markovskih procesiv virishuvannya V cij praci bulo pobudovano klas adaptivnih strategij yaki volodiyut vlastivostyami rivnomirno maksimalnogo tempu zbizhnosti dlya zagalnoyi ochikuvanoyi vinagorodi skinchennogo intervalu za pripushen skinchennih prostoriv stan diya ta neskorotnosti zakonu perehodu Ci strategiyi pripisuyut shobi vibir dij na kozhnomu stani v kozhen moment chasu gruntuvavsya na pokaznikah yaki ye rozduvannyami pravoyi storoni rivnyan optimalnosti ochikuvanoyi userednenoyi vinagorodi Navchannya z pidkriplennyam Dokladnishe Navchannya z pidkriplennyam Yaksho jmovirnosti vinagorod ye nevidomimi to zadacha ye zadacheyu navchannya z pidkriplennyam Sutton ta Barto 1998 Dlya cogo korisno viznachiti nastupnu funkciyu yaka vidpovidaye vchinennyu diyi a displaystyle a z prodovzhennyam optimalnim chinom abo vidpovidno do bud yakoyi nayavnoyi v danij moment strategiyi Q s a s Pa s s Ra s s gV s displaystyle Q s a sum s P a s s R a s s gamma V s I hocha cya funkciya takozh ye nevidomoyu dosvid pid chas navchannya gruntuyetsya na parah s a displaystyle s a razom z naslidkom s displaystyle s tobto Ya buv u stani s displaystyle s sprobuvav vchiniti a displaystyle a i stalosya s displaystyle s Takim chinom ye masiv Q displaystyle Q i dosvid vikoristovuyetsya dlya jogo bezposerednogo utochnennya Ce vidome yak Q navchannya Navchannya z pidkriplennyam mozhe rozv yazuvati markovski procesi virishuvannya bez yavnogo vkazannya jmovirnostej perehodiv znachennya jmovirnostej perehodiv neobhidni dlya iteraciyi za cinnostyami ta za strategiyami V navchanni z pidkriplennyami zamist yavnogo vkazannya jmovirnostej perehodiv dostup do nih otrimuyetsya cherez imitator yakij zazvichaj bagatorazovo perezapuskayetsya z rivnomirnogo vipadkovogo pochatkovogo stanu Navchannya z pidkriplennyam takozh mozhe poyednuvatisya z nablizhennyam funkcij shobi mozhna bulo bratisya za zadachi z duzhe velikim chislom staniv Avtomati z samonavchannyam Detalnishi vidomosti z ciyeyi temi vi mozhete znajti v statti en She odne zastosuvannya procesu MPV v teoriyi mashinnogo navchannya nazivayetsya avtomatami z samonavchannyam Vono takozh ye odnim iz tipiv navchannya z pidkriplennyam yaksho seredovishe maye stohastichnij harakter Pershe detalne doslidzhennya pro avtomati z samonavchannyam angl learning automata zdijsnili en ta Tatachar 1974 v yakomu yih bulo pervisno opisano yavno yak skinchenni avtomati Podibno do navchannya z pidkriplennyam algoritm avtomativ iz samonavchannyam takozh maye perevagu rozv yazannya zadach u yakih imovirnosti abo vinagorodi ye nevidomimi Vidminnist avtomativ iz samonavchannyam vid Q navchannya polyagaye v tomu sho voni ne vklyuchayut pam yat Q znachen a dlya znahodzhennya rezultatu navchannya utochnyuyut jmovirnosti dij bezposeredno Avtomati z samonavchannyam ye odniyeyu zi shem navchannya z suvorim dovedennyam zbizhnosti V teoriyi avtomativ iz samonavchannyam stohastichnij avtomat angl stochastic automaton skladayetsya z mnozhini mozhlivih vhodiv x mnozhini mozhlivih vnutrishnih staniv F F1 Fs mnozhini mozhlivih vihodiv abo dij a a1 ar de r s vektora pochatkovoyi jmovirnosti staniv p 0 p1 0 ps 0 obchislyuvanoyi funkciyi A yaka pislya kozhnogo kroku chasu t porodzhuye p t 1 z p t potochnogo vhodu ta potochnogo stanu i funkciyi G F a yaka porodzhuye vihid na kozhnomu kroci chasu Stani takogo avtomatu vidpovidayut stanam markovskogo procesu diskretnogo chasu z diskretnimi parametrami Na kozhnomu kroci chasu t 0 1 2 3 avtomat chitaye vhid zi svogo seredovisha utochnyuye P t do P t 1 za dopomogoyu A vipadkovo obiraye nastupnij stan vidpovidno do jmovirnostej P t 1 ta vivodit vidpovidnu diyu Seredovishe avtomata v svoyu chergu chitaye cyu diyu i nadsilaye avtomatovi nastupnij vhid Interpretaciya v terminah teoriyi kategorij Krim yak cherez vinagorodi markovskij proces virishuvannya S A P displaystyle S A P mozhna rozumiti i v terminah teoriyi kategorij A same nehaj A displaystyle mathcal A poznachaye en z porodzhuvalnoyu mnozhinoyu A displaystyle A Nehaj Dist displaystyle mathbf Dist poznachaye en monadi Zhiri 6 travnya 2016 u Wayback Machine Todi funktor A Dist displaystyle mathcal A to mathbf Dist koduye yak mnozhinu staniv S displaystyle S tak i funkciyu jmovirnostej P displaystyle P Takim chinom markovskij proces virishuvannya mozhe buti uzagalneno z monoyidiv kategorij z odnim ob yektom na dovilni kategoriyi Rezultat C F C Dist displaystyle mathcal C F mathcal C to mathbf Dist mozhna nazvati kontekstno zalezhnim markovskim procesom virishuvannya angl context dependent Markov decision process oskilki perehid vid odnogo ob yektu do inshogo v C displaystyle mathcal C zminyuye mnozhinu dostupnih dij ta mnozhinu mozhlivih staniv Markovskij proces virishuvannya bezperervnogo chasuV markovskih procesah virishuvannya diskretnogo chasu rishennya zdijsnyuyutsya cherez diskretni promizhki chasu Prote dlya markovskih procesiv virishuvannya bezperervnogo chasu angl Continuous time Markov Decision Processes rishennya mozhut zdijsnyuvatisya v bud yakij chas yakij obere uhvalyuvach rishen U porivnyanni z markovskimi procesami virishuvannya diskretnogo chasu markovski procesi virishuvannya bezperervnogo chasu mozhut krashe modelyuvati proces uhvalyuvannya rishen dlya sistemi yaka maye en tobto sistemi dinamika yakoyi viznachayetsya diferencialnimi rivnyannyami z chastinnimi pohidnimi Viznachennya Dlya obgovorennya markovskih procesiv virishuvannya bezperervnogo chasu vvedimo dva nabori poznachen Yaksho prostir staniv ta prostir dij ye skinchennimi S displaystyle mathcal S prostir staniv angl State space A displaystyle mathcal A prostir dij angl Action space q i j a displaystyle q i j a S A S displaystyle mathcal S times mathcal A rightarrow triangle mathcal S funkciya intensivnosti perehodiv angl transition rate function R i a displaystyle R i a S A R displaystyle mathcal S times mathcal A rightarrow mathbb R funkciya vinagorodi angl reward function Yaksho prostir staniv ta prostir dij ye neperervnimi X displaystyle mathcal X prostir staniv angl state space U displaystyle mathcal U prostir mozhlivogo keruvannya angl space of possible control f x u displaystyle f x u X U X displaystyle mathcal X times mathcal U rightarrow triangle mathcal X funkciya intensivnosti perehodiv angl transition rate function r x u displaystyle r x u X U R displaystyle mathcal X times mathcal U rightarrow mathbb R funkciya intensivnosti vinagorodi angl reward rate function taka sho r x t u t dt dR x t u t displaystyle r x t u t dt dR x t u t de R x u displaystyle R x u ye funkciyeyu vinagorodi yaku mi obgovoryuvali v poperednomu vipadku Zadacha Yak i v markovskih procesah virishuvannya diskretnogo chasu v markovskomu procesi virishuvannya bezperervnogo chasu mi hochemo znahoditi optimalnu strategiyu angl policy abo keruvannya angl control yake davalo bi nam optimalnu ochikuvanu prointegrovanu vinagorodu maxEu 0 gtr x t u t dt x0 displaystyle max quad mathbb E u int 0 infty gamma t r x t u t dt x 0 De 0 g lt 1 displaystyle 0 leq gamma lt 1 Formulyuvannya linijnogo programuvannya Yaksho prostori staniv ta dij ye skinchennimi to dlya poshuku optimalnoyi strategiyi mi mozhemo vikoristovuvati linijne programuvannya sho bulo odnim iz najpershih zastosovanih pidhodiv Tut mi rozglyadayemo lishe ergodichnu model yaka oznachaye sho nash MPV bezperervnogo chasu staye ergodichnim markovskim lancyugom bezperervnogo chasu za staloyi strategiyi Za cogo pripushennya hocha uhvalyuvach rishennya i mozhe zdijsnyuvati rishennya v bud yakij chas u potochnomu stani vin ne mozhe vigrati bilshe zdijsnyuyuchi bilshe nizh odnu diyu Dlya nogo krashe zdijsnyuvati diyu lishe v toj moment chasu koli sistema perehodit z potochnogo stanu do inshogo Za deyakih umov detalnishe div Naslidok 3 14 u Continuous Time Markov Decision Processes 2 lyutogo 2012 u Wayback Machine yaksho nasha funkciya optimalnoyi cinnosti V displaystyle V ye nezalezhnoyu vid stanu i displaystyle i to mi matimemo nastupnu nerivnist g R i a j Sq j i a h j i Sanda A i displaystyle g geq R i a sum j in S q j i a h j quad forall i in S and a in A i Yaksho isnuye funkciya h displaystyle h to V displaystyle bar V bude najmenshim g displaystyle g yake zadovolnyaye navedene vishe rivnyannya Shobi znahoditi V displaystyle bar V mi mozhemo zastosovuvati nastupnu model linijnogo programuvannya Pryama linijna programa P LP angl primal linear program P LP Minimizegs tg j Sq j i a h j R i a i S a A i displaystyle begin aligned text Minimize quad amp g text s t quad amp g sum j in S q j i a h j geq R i a forall i in S a in A i end aligned Dvoyista linijna programa D LP angl dual linear program D LP Maximize i S a A i R i a y i a s t i S a A i q j i a y i a 0 j S i S a A i y i a 1 y i a 0 a A i and i S displaystyle begin aligned text Maximize amp sum i in S sum a in A i R i a y i a text s t amp sum i in S sum a in A i q j i a y i a 0 quad forall j in S amp sum i in S sum a in A i y i a 1 amp y i a geq 0 qquad forall a in A i and forall i in S end aligned y i a displaystyle y i a ye pridatnim rozv yazkom D LP yaksho y i a displaystyle y i a ye nevirodzhenoyu i zadovolnyaye obmezhennya zadachi D LP Pridatnij rozv yazok D LP y i a displaystyle y i a nazivayut optimalnim rozv yazkom yaksho i S a A i R i a y i a i S a A i R i a y i a displaystyle begin aligned sum i in S sum a in A i R i a y i a geq sum i in S sum a in A i R i a y i a end aligned dlya vsih pridatnih rozv yazkiv D LP y i a displaystyle y i a Shojno mi znajshli optimalnij rozv yazok y i a displaystyle y i a mi mozhemo vikoristovuvati jogo dlya vstanovlennya optimalnih strategij Rivnyannya Gamiltona Yakobi Bellmana Yaksho prostir staniv ta prostir dij v MPV bezperervnogo chasu ye neperervnimi to optimalnij kriterij mozhna znahoditi shlyahom rozv yazannya diferencialnogo rivnyannya Gamiltona Yakobi Bellmana GYaB angl Hamilton Jacobi Bellman equation HJB v chastkovih pohidnih Dlya obgovorennya rivnyannya GYaB nam neobhidno pereformulyuvati nashu zadachu V x 0 0 maxu 0Tr x t u t dt D x T s t dx t dt f t x t u t displaystyle begin aligned V x 0 0 amp text max u int 0 T r x t u t dt D x T s t quad amp frac dx t dt f t x t u t end aligned D displaystyle D cdot ye funkciyeyu ostatochnoyi vinagorodi angl terminal reward function x t displaystyle x t ye vektorom stanu sistemi u t displaystyle u t ye vektorom keruvannya sistemoyu yakij mi namagayemosya znajti f displaystyle f cdot pokazuye yak stan sistemi zminyuyetsya z chasom Rivnyannya Gamiltona Yakobi Bellmana ye takim 0 maxu r t x u V t x xf t x u displaystyle 0 text max u r t x u frac partial V t x partial x f t x u Mi mozhemo rozv yazuvati ce rivnyannya shobi znahoditi optimalne keruvannya u t displaystyle u t yake davalo bi nam optimalnu cinnist V displaystyle V Zastosuvannya Markovski procesi virishuvannya bezperervnogo chasu mayut zastosuvannya v sistemah masovogo obslugovuvannya procesah epidemiyi ta en Alternativni poznachennyaTerminologiya ta poznachennya MPV ne ye ostatochno uzgodzhenimi Ye dvi osnovni techiyi odna zoseredzhuyetsya na zadachah maksimizaciyi z kontekstiv na kshtalt ekonomiki zastosovuyuchi termini diya angl action vinagoroda angl reward cinnist angl value ta nazivayuchi koeficiyent znecinyuvannya angl discount factor b displaystyle beta abo g displaystyle gamma v toj chas yak insha zoseredzhuyetsya na zadachah minimizaciyi z tehniki ta navigaciyi zastosovuyuchi termini keruvannya angl control vitrati angl cost ostatochni vitrati angl cost to go i nazivayuchi koeficiyent znecinyuvannya angl discount factor a displaystyle alpha Na dodachu riznitsya j poznachennya jmovirnosti perehodu v cij statti alternativne komentardiya a displaystyle a keruvannya u displaystyle u vinagoroda R displaystyle R vitrati g displaystyle g g displaystyle g ye vid yemnoyu R displaystyle R cinnist V displaystyle V ostatochni vitrati J displaystyle J J displaystyle J ye vid yemnoyu V displaystyle V strategiya p displaystyle pi strategiya m displaystyle mu koeficiyent znecinyuvannya g displaystyle gamma koeficiyent znecinyuvannya a displaystyle alpha jmovirnist perehodu Pa s s displaystyle P a s s jmovirnist perehodu pss a displaystyle p ss a Na dodachu jmovirnist perehodu inodi zapisuyut yak Pr s a s displaystyle Pr s a s Pr s s a displaystyle Pr s s a abo ridshe yak ps s a displaystyle p s s a Obmezheni markovski procesi virishuvannyaObmezheni markovski procesi virishuvannya OMPV angl Constrained Markov Decision Process CMDP ye rozshirennyami markovskih procesiv virishuvannya MPV Mizh MPV ta OMPV ye tri dokorinni vidminnosti Pislya zastosuvannya diyi zamist odniyeyi vitrati nesutsya dekilka vitrat OMPV rozv yazuyutsya lishe za dopomogoyu linijnih program a dinamichne programuvannya ne pracyuye Ostatochna strategiya zalezhit vid pochatkovogo stanu Isnuye ryad zastosuvan OMPV Neshodavno yih bulo zastosovano v scenariyah planuvannya ruhu v robototehnici Div takozh en en en Dinamichne programuvannya Rivnyannya Bellmana dlya zastosuvan v ekonomici Rivnyannya Gamiltona Yakobi Bellmana Optimalne keruvannya en en Stohastichni igri Q navchannyaPrimitkiHoward 1960 Shapley 1953 Kallenberg 2002 Burnetas ta Katehakis 1997 Narendra ta Thathachar 1974 Narendra ta Thathachar 1989 Narendra ta Thathachar 1974 s 325 livoruch Altman 1999 Feyzabadi ta Carpin 2014 DzherelaBellman R 1957 Journal of Mathematics and Mechanics 6 Arhiv originalu za 30 kvitnya 2021 Procitovano 8 veresnya 2016 angl Bellman R E 2003 1957 Dynamic Programming vid Dover paperback edition Princeton NJ Princeton University Press ISBN 0 486 42809 5 angl Howard Ronald A 1960 PDF The M I T Press Arhiv originalu PDF za 9 zhovtnya 2011 Procitovano 8 veresnya 2016 angl Shapley Lloyd 1953 Stochastic Games Proceedings of National Academy of Science 39 1095 1100 angl Kallenberg Lodewijk 2002 Finite state and action MDPs U Feinberg Eugene A Shwartz Adam red Handbook of Markov decision processes methods and applications Springer ISBN 0 7923 7459 2 angl Bertsekas D 1995 Dynamic Programming and Optimal Control T 2 MA Athena angl Burnetas A N Katehakis M N 1997 Optimal Adaptive Policies for Markov Decision Processes Mathematics of Operations Research 22 1 222 doi 10 1287 moor 22 1 222 angl Feinberg E A Shwartz A red 2002 Handbook of Markov Decision Processes Boston MA Kluwer angl Derman C 1970 Finite state Markovian decision processes Academic Press angl Puterman M L 1994 Markov Decision Processes Wiley angl Tijms H C 2003 A First Course in Stochastic Models Wiley angl Sutton R S Barto A G 1998 Cambridge MA The MIT Press Arhiv originalu za 11 grudnya 2013 Procitovano 8 veresnya 2016 angl van Nunen J A E E 1976 A set of successive approximation methods for discounted Markovian decision problems Z Operations Research 20 203 208 angl Thathachar M A L 1 lipnya 1974 Learning Automata A Survey IEEE Transactions on Systems Man and Cybernetics SMC 4 4 323 334 doi 10 1109 TSMC 1974 5408453 ISSN 0018 9472 angl Thathachar Mandayam A L 1989 angl Prentice Hall ISBN 9780134855585 Arhiv originalu za 16 bereznya 2017 Procitovano 8 veresnya 2016 angl Meyn S P 2007 Cambridge University Press ISBN 978 0 521 88441 9 Arhiv originalu za 19 chervnya 2010 Dodatok mistit skorochenu Arhiv originalu za 18 grudnya 2012 angl Ross S M 1983 Introduction to stochastic dynamic programming Academic press angl Guo X Hernandez Lerma O 2009 Springer Arhiv originalu za 2 lyutogo 2012 Procitovano 8 veresnya 2016 angl Puterman M L Shin M C 1978 Modified Policy Iteration Algorithms for Discounted Markov Decision Problems Management Science 24 angl Altman Eitan 1999 Constrained Markov decision processes T 7 CRC Press angl Feyzabadi S Carpin S 18 22 Aug 2014 Risk aware path planning using hierarchical constrained Markov Decision Processes Automation Science and Engineering CASE IEEE International Conference s 297 303 angl PosilannyaMDP Toolbox dlya MATLAB GNU Octave Scilab ta R 13 lipnya 2016 u Wayback Machine Instrumentarij markovskih procesiv virishuvannya MPV Chudovij navchalnij posibnik ta instrumentarij Matlab dlya roboti z MPV angl Instrumentarij MPV dlya Python 2 zhovtnya 2016 u Wayback Machine Paket dlya rozv yazannya MPV Reinforcement Learning nedostupne posilannya z kvitnya 2019 Vvedennya vid Richarda Sattona ta Endryu Barto angl SPUDD 24 kvitnya 2016 u Wayback Machine Strukturovanij rozv yazuvach MPV dlya zavantazhennya vid Jesse Hoey Learning to Solve Markovian Decision Processes 29 sichnya 2012 u Wayback Machine vid Satinder P Singh 22 lyutogo 2012 u Wayback Machine angl Optimal Adaptive Policies for Markov Decision Processes vid Burnetas ta Katehakis 1997 angl V inshomu movnomu rozdili ye povnisha stattya Markov decision process angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi listopad 2023 Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad