У навчанні з підкріпленням безмодельний алгоритм на відміну від заснованого на моделі це алгоритм який не використовує р

У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди, що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок. Прикладом безмодельного алгоритму може слугувати Q-навчання.

Основні алгоритми безмодельного навчання з підкріпленням

Алгоритм	Опис	Модель	Стратегія	Множина дій	Простір станів	Оператор
(DQN)	Deep Q Network	Безмодельний	Поза стратегією	Дискретна	Безперервний	Q-значення
DDPG	Deep Deterministic Policy Gradient	Безмодельний	Поза стратегією	Безперервна	Безперервний	Q-значення
A3C	Asynchronous Advantage Actor-Critic Algorithm	Безмодельний	За стратегією	Безперервна	Безперервний	Перевага (англ. Advantage)
TRPO	Trust Region Policy Optimization	Безмодельний	За стратегією	Безперервна	Безперервний	Перевага (англ. Advantage)
^[en]	Proximal Policy Optimization	Безмодельний	За стратегією	Безперервна	Безперервний	Перевага (англ. Advantage)
TD3	Twin Delayed Deep Deterministic Policy Gradient	Безмодельний	Поза стратегією	Безперервна	Безперервний	Q-значення
SAC	Soft Actor-Critic	Безмодельний	Поза стратегією	Безперервна	Безперервний	Перевага (англ. Advantage)

Примітки

Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). (PDF) (вид. Second). A Bradford Book. с. 552. ISBN . Архів оригіналу (PDF) за 19 лютого 2019. Процитовано 18 лютого 2019.

[sutton2018-1] Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). (PDF) (вид. Second). A Bradford Book. с. 552. ISBN . Архів оригіналу (PDF) за 19 лютого 2019. Процитовано 18 лютого 2019.