У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди, що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок. Прикладом безмодельного алгоритму може слугувати Q-навчання.
Основні алгоритми безмодельного навчання з підкріпленням
Алгоритм | Опис | Модель | Стратегія | Множина дій | Простір станів | Оператор |
---|---|---|---|---|---|---|
DQN | Deep Q Network | Безмодельний | Поза стратегією | Дискретна | Безперервний | Q-значення |
DDPG | Deep Deterministic Policy Gradient | Безмодельний | Поза стратегією | Безперервна | Безперервний | Q-значення |
A3C | Asynchronous Advantage Actor-Critic Algorithm | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
TRPO | Trust Region Policy Optimization | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
[en] | Proximal Policy Optimization | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
TD3 | Twin Delayed Deep Deterministic Policy Gradient | Безмодельний | Поза стратегією | Безперервна | Безперервний | Q-значення |
SAC | Soft Actor-Critic | Безмодельний | Поза стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
Примітки
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет