Підтримка
www.wikidata.uk-ua.nina.az
U navchanni z pidkriplennyam bezmodelnij algoritm na vidminu vid zasnovanogo na modeli ce algoritm yakij ne vikoristovuye rozpodil jmovirnostej perehodu i funkciyu vinagorodi sho pov yazani z Markovskim procesom virishuvannya MPV vidobrazhayuchim neobhidnu dlya rozv yazannya problemu Rozpodil jmovirnostej perehodu abo model perehodu i funkciyu vinagorodi zazvichaj zagalom nazivayut modellyu seredovisha abo MPV zvidsi j nazva bezmodelnij Algoritm bezmodelnogo navchannya z pidkriplennyam mozhna rozglyadati yak yavnij algoritm sprob i pomilok Prikladom bezmodelnogo algoritmu mozhe sluguvati Q navchannya Osnovni algoritmi bezmodelnogo navchannya z pidkriplennyamAlgoritm Opis Model Strategiya Mnozhina dij Prostir staniv Operator DQN Deep Q Network Bezmodelnij Poza strategiyeyu Diskretna Bezperervnij Q znachennya DDPG Deep Deterministic Policy Gradient Bezmodelnij Poza strategiyeyu Bezperervna Bezperervnij Q znachennya A3C Asynchronous Advantage Actor Critic Algorithm Bezmodelnij Za strategiyeyu Bezperervna Bezperervnij Perevaga angl Advantage TRPO Trust Region Policy Optimization Bezmodelnij Za strategiyeyu Bezperervna Bezperervnij Perevaga angl Advantage en Proximal Policy Optimization Bezmodelnij Za strategiyeyu Bezperervna Bezperervnij Perevaga angl Advantage TD3 Twin Delayed Deep Deterministic Policy Gradient Bezmodelnij Poza strategiyeyu Bezperervna Bezperervnij Q znachennya SAC Soft Actor Critic Bezmodelnij Poza strategiyeyu Bezperervna Bezperervnij Perevaga angl Advantage PrimitkiSutton Richard S Barto Andrew G 13 listopada 2018 PDF vid Second A Bradford Book s 552 ISBN 0262039249 Arhiv originalu PDF za 19 lyutogo 2019 Procitovano 18 lyutogo 2019
Топ