У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди, що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок. Прикладом безмодельного алгоритму може слугувати Q-навчання.
Основні алгоритми безмодельного навчання з підкріпленням
Алгоритм | Опис | Модель | Стратегія | Множина дій | Простір станів | Оператор |
---|---|---|---|---|---|---|
(DQN) | Deep Q Network | Безмодельний | Поза стратегією | Дискретна | Безперервний | Q-значення |
DDPG | Deep Deterministic Policy Gradient | Безмодельний | Поза стратегією | Безперервна | Безперервний | Q-значення |
A3C | Asynchronous Advantage Actor-Critic Algorithm | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
TRPO | Trust Region Policy Optimization | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
[en] | Proximal Policy Optimization | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
TD3 | Twin Delayed Deep Deterministic Policy Gradient | Безмодельний | Поза стратегією | Безперервна | Безперервний | Q-значення |
SAC | Soft Actor-Critic | Безмодельний | Поза стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
Примітки
- Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). (PDF) (вид. Second). A Bradford Book. с. 552. ISBN . Архів оригіналу (PDF) за 19 лютого 2019. Процитовано 18 лютого 2019.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U navchanni z pidkriplennyam bezmodelnij algoritm na vidminu vid zasnovanogo na modeli ce algoritm yakij ne vikoristovuye rozpodil jmovirnostej perehodu i funkciyu vinagorodi sho pov yazani z Markovskim procesom virishuvannya MPV vidobrazhayuchim neobhidnu dlya rozv yazannya problemu Rozpodil jmovirnostej perehodu abo model perehodu i funkciyu vinagorodi zazvichaj zagalom nazivayut modellyu seredovisha abo MPV zvidsi j nazva bezmodelnij Algoritm bezmodelnogo navchannya z pidkriplennyam mozhna rozglyadati yak yavnij algoritm sprob i pomilok Prikladom bezmodelnogo algoritmu mozhe sluguvati Q navchannya Osnovni algoritmi bezmodelnogo navchannya z pidkriplennyamAlgoritm Opis Model Strategiya Mnozhina dij Prostir staniv Operator DQN Deep Q Network Bezmodelnij Poza strategiyeyu Diskretna Bezperervnij Q znachennya DDPG Deep Deterministic Policy Gradient Bezmodelnij Poza strategiyeyu Bezperervna Bezperervnij Q znachennya A3C Asynchronous Advantage Actor Critic Algorithm Bezmodelnij Za strategiyeyu Bezperervna Bezperervnij Perevaga angl Advantage TRPO Trust Region Policy Optimization Bezmodelnij Za strategiyeyu Bezperervna Bezperervnij Perevaga angl Advantage en Proximal Policy Optimization Bezmodelnij Za strategiyeyu Bezperervna Bezperervnij Perevaga angl Advantage TD3 Twin Delayed Deep Deterministic Policy Gradient Bezmodelnij Poza strategiyeyu Bezperervna Bezperervnij Q znachennya SAC Soft Actor Critic Bezmodelnij Poza strategiyeyu Bezperervna Bezperervnij Perevaga angl Advantage PrimitkiSutton Richard S Barto Andrew G 13 listopada 2018 PDF vid Second A Bradford Book s 552 ISBN 0262039249 Arhiv originalu PDF za 19 lyutogo 2019 Procitovano 18 lyutogo 2019