SARSA — алгоритм пошуку стратегії марковського процесу вирішування, який використовується у навчанні з підкріпленням. Гевін Руммері та Махесан Ніранжан у 1994 році запропонували його під назвою «Modified Connectionist Q-Learning» (MCQ-L). Назва SARSA, запропонована Річардом Саттоном, згадувалася у їх статті лише у виносці.
Ця назва означає, що оновлення Q-функції залежить від поточного стану агента S1, дії A1, яку агент обирає, винагороди R, яку отримує агент за вибір цієї дії, стану S2, в який переходить агент після виконання цієї дії, та, нарешті, наступної дії А2, яку агент обирає виходячи зі свого нового стану. Скорочення букв (st, at, rt, st + 1, at + 1) і дає назву SARSA. Деякі автори використовують інший підхід і записують набір букв у вигляді (st, at, rt + 1, st + 1, at + 1), залежно від того, за який крок агента формально дається винагорода. В решті статті використовується перша домовленість.
Алгоритм
За алгоритмом SARSA, агент взаємодіє з середовищем та оновлює стратегію згідно з виконаними діями, отже, цей алгоритм можна віднести до класу алгоритмів навчання за поточною стратегією (англ. on-policy). Значення Q-функції для дії та стану оновлюється відповідно похибці, що регулюється за допомогою коефіцієнту швидкості навчання . Значення Q-функції представляє сумарну винагороду, яку можна отримати за весь залишившийся час у межах цього епізоду, за умови виконання дії a в стані s, з додаванням знеціненої винагороди за виконання дії в наступному стані.
Деякі оптимізації алгоритму Q-навчання можуть бути застосовані і до SARSA.
Гіперпараметри
Коефіцієнт швидкості навчання (α)
Коефіцієнт швидкості навчання визначає, наскільки отримана за дану ітерацію інформація змінює попередню інформацію. Коефіцієнт 0 змусить агента ніяк не навчитися, тоді як коефіцієнт 1 змусить агента враховувати лише інформацію, отриману за останню ітерацію алгоритму.
Коефіцієнт знецінювання (γ)
Коефіцієнт знецінювання (англ. discount factor) визначає важливість майбутніх винагород. Коефіцієнт 0 змушує агента враховувати лише поточну винагороду, тоді як коефіцієнт близький до 1, змусить намагатися досягти максимальної довгострокової винагороди. Якщо коефіцієнт знецінювання дорівнює або перевищує 1, то значення -функції може не збігатися.
Початкові умови (Q(s0, a0))
Оскільки SARSA є ітераційним алгоритмом, він передбачає наявність початкових умов до того, як відбудеться перше оновлення. Високе (нескінченне) початкове значення, також відоме як «оптимістичні початкові умови», може заохочувати дослідження: незалежно від того, які дії виконує агент, формула оновлення призводить до того, що наступні ітерації мають вищі значення винагороди, ніж попередні, тим самим збільшуючи ймовірність їх вибору. У 2013 році була запропонована ідея використання першої винагороди r в якості початкових умов. При такому підході, після виконання агентом першої дії, отримана винагорода використовується як початкове значення Q. Що при фіксованих винагородах, дозволяє навчати відразу після першого кроку. Такий метод обирання початкових умов повторює поведінку людини в багатьох експериментах з бінарним вибором.
Примітки
- . Архів оригіналу за 8 червня 2013. Процитовано 18 червня 2020.
- . Архів оригіналу за 5 липня 2020. Процитовано 18 червня 2020.
- Wiering, Marco; Schmidhuber, Jürgen (1 жовтня 1998). (PDF). Machine Learning (англ.). 33 (1): 105—115. doi:10.1023/A:1007562800292. ISSN 0885-6125. S2CID 8358530. Архів оригіналу (PDF) за 30 жовтня 2018. Процитовано 23 листопада 2021.
- Arguments against myopic training - LessWrong. www.lesswrong.com (англ.). Процитовано 13 листопада 2022.
- . incompleteideas.net. Архів оригіналу за 5 липня 2020. Процитовано 28 лютого 2018.
- Shteingart, H; Neiman, T; Loewenstein, Y (May 2013). (PDF). J Exp Psychol Gen. 142 (2): 476—88. doi:10.1037/a0029550. PMID 22924882. Архів оригіналу (PDF) за 26 січня 2021. Процитовано 18 червня 2020.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
SARSA algoritm poshuku strategiyi markovskogo procesu virishuvannya yakij vikoristovuyetsya u navchanni z pidkriplennyam Gevin Rummeri ta Mahesan Niranzhan u 1994 roci zaproponuvali jogo pid nazvoyu Modified Connectionist Q Learning MCQ L Nazva SARSA zaproponovana Richardom Sattonom zgaduvalasya u yih statti lishe u vinosci Cya nazva oznachaye sho onovlennya Q funkciyi zalezhit vid potochnogo stanu agenta S1 diyi A1 yaku agent obiraye vinagorodi R yaku otrimuye agent za vibir ciyeyi diyi stanu S2 v yakij perehodit agent pislya vikonannya ciyeyi diyi ta nareshti nastupnoyi diyi A2 yaku agent obiraye vihodyachi zi svogo novogo stanu Skorochennya bukv st at rt st 1 at 1 i daye nazvu SARSA Deyaki avtori vikoristovuyut inshij pidhid i zapisuyut nabir bukv u viglyadi st at rt 1 st 1 at 1 zalezhno vid togo za yakij krok agenta formalno dayetsya vinagoroda V reshti statti vikoristovuyetsya persha domovlenist AlgoritmQ s t a t Q s t a t a r t g Q s t 1 a t 1 Q s t a t displaystyle Q s t a t leftarrow Q s t a t alpha r t gamma Q s t 1 a t 1 Q s t a t Za algoritmom SARSA agent vzayemodiye z seredovishem ta onovlyuye strategiyu zgidno z vikonanimi diyami otzhe cej algoritm mozhna vidnesti do klasu algoritmiv navchannya za potochnoyu strategiyeyu angl on policy Znachennya Q funkciyi dlya diyi ta stanu onovlyuyetsya vidpovidno pohibci sho regulyuyetsya za dopomogoyu koeficiyentu shvidkosti navchannya a displaystyle alpha Znachennya Q funkciyi predstavlyaye sumarnu vinagorodu yaku mozhna otrimati za ves zalishivshijsya chas u mezhah cogo epizodu za umovi vikonannya diyi a v stani s z dodavannyam znecinenoyi vinagorodi za vikonannya diyi v nastupnomu stani Deyaki optimizaciyi algoritmu Q navchannya mozhut buti zastosovani i do SARSA GiperparametriKoeficiyent shvidkosti navchannya a Koeficiyent shvidkosti navchannya viznachaye naskilki otrimana za danu iteraciyu informaciya zminyuye poperednyu informaciyu Koeficiyent 0 zmusit agenta niyak ne navchitisya todi yak koeficiyent 1 zmusit agenta vrahovuvati lishe informaciyu otrimanu za ostannyu iteraciyu algoritmu Koeficiyent znecinyuvannya g Koeficiyent znecinyuvannya angl discount factor viznachaye vazhlivist majbutnih vinagorod Koeficiyent 0 zmushuye agenta vrahovuvati lishe potochnu vinagorodu todi yak koeficiyent blizkij do 1 zmusit namagatisya dosyagti maksimalnoyi dovgostrokovoyi vinagorodi Yaksho koeficiyent znecinyuvannya dorivnyuye abo perevishuye 1 to znachennya Q displaystyle Q funkciyi mozhe ne zbigatisya Pochatkovi umovi Q s0 a0 Oskilki SARSA ye iteracijnim algoritmom vin peredbachaye nayavnist pochatkovih umov do togo yak vidbudetsya pershe onovlennya Visoke neskinchenne pochatkove znachennya takozh vidome yak optimistichni pochatkovi umovi mozhe zaohochuvati doslidzhennya nezalezhno vid togo yaki diyi vikonuye agent formula onovlennya prizvodit do togo sho nastupni iteraciyi mayut vishi znachennya vinagorodi nizh poperedni tim samim zbilshuyuchi jmovirnist yih viboru U 2013 roci bula zaproponovana ideya vikoristannya pershoyi vinagorodi r v yakosti pochatkovih umov Pri takomu pidhodi pislya vikonannya agentom pershoyi diyi otrimana vinagoroda vikoristovuyetsya yak pochatkove znachennya Q Sho pri fiksovanih vinagorodah dozvolyaye navchati vidrazu pislya pershogo kroku Takij metod obirannya pochatkovih umov povtoryuye povedinku lyudini v bagatoh eksperimentah z binarnim viborom Primitki Arhiv originalu za 8 chervnya 2013 Procitovano 18 chervnya 2020 Arhiv originalu za 5 lipnya 2020 Procitovano 18 chervnya 2020 Wiering Marco Schmidhuber Jurgen 1 zhovtnya 1998 PDF Machine Learning angl 33 1 105 115 doi 10 1023 A 1007562800292 ISSN 0885 6125 S2CID 8358530 Arhiv originalu PDF za 30 zhovtnya 2018 Procitovano 23 listopada 2021 Arguments against myopic training LessWrong www lesswrong com angl Procitovano 13 listopada 2022 incompleteideas net Arhiv originalu za 5 lipnya 2020 Procitovano 28 lyutogo 2018 Shteingart H Neiman T Loewenstein Y May 2013 PDF J Exp Psychol Gen 142 2 476 88 doi 10 1037 a0029550 PMID 22924882 Arhiv originalu PDF za 26 sichnya 2021 Procitovano 18 chervnya 2020