У сфері штучного інтелекту підмайстрове навчання (або навчання на основі демонстрації чи імітаційне навчання) — це процес навчання шляхом спостереження експерта. Його можна розглядати як форму навчання під керівництвом, де навчальний набір даних складається з виконання завдань учителем-демонстрацією.
Підхід функції відображення
Методи відображення намагаються імітувати експерта, шляхом формування прямого відображення або від станів до дій, або від станів до значень винагороди. Наприклад, у 2002 році дослідники використали такий підхід, щоб навчити робота AIBO базовим футбольним навичкам.
Навчальний підхід із зворотним підкріпленням
Навчання зі зворотним підкріпленням (IRL) — це процес виведення функції винагороди з поведінки, що спостерігається. У той час як звичайне «навчання з підкріпленням» передбачає використання винагород і покарань для вивчення поведінки, у IRL напрямок змінюється, і робот спостерігає за поведінкою людини, щоб зрозуміти, яку мету ця поведінка, здається, намагається досягти. Проблему IRL можна визначити як:
Дано 1) вимірювання поведінки агента в часі за різних обставин; 2) вимірювання сенсорних вхідних даних для цього агента; 3) модель фізичного середовища (включаючи тіло агента): визначте функцію винагороди, яку оптимізує агент.
Дослідник IRL [en] припускає, що IRL можна використовувати для спостереження за людьми та спроб кодифікації їхніх складних «етичних цінностей», намагаючись створити «етичних роботів», які одного разу знатимуть, що «не варити твого кота», без необхідності казати їм цього напряму. Сценарій можна змоделювати як «кооперативну інверсну навчальну гру з підкріпленням», де гравець «людина» та гравець «робот» співпрацюють, щоб забезпечити неявні цілі людини, незважаючи на те, що ці цілі явно не відомі ні людині, ні роботу.
У 2017 році OpenAI і DeepMind застосували глибоке навчання до кооперативного навчання зворотного підкріплення в простих областях, таких як ігри Atari, і звичайні завдання роботів, такі як сальто назад. Роль людини обмежувалася відповіддю на запити робота щодо того, яка з двох різних дій є кращою. Дослідники знайшли докази того, що методи можуть бути економічно масштабованими для сучасних систем.
Підмайстрове навчання через зворотне підкріплююче навчання (AIRP) було розроблено у 2004 році [en], професором кафедри EE CS Берклі, та Ендрю Нґом, доцентом факультету комп’ютерних наук Стенфордського університету. AIRP має справу з «Марковським процесом прийняття рішень, де нам явно не надається функція винагороди, але замість цього ми можемо спостерігати, як експерт демонструє завдання, яке ми хочемо навчитися виконувати». AIRP використовувався для моделювання функцій винагороди у високодинамічних сценаріях, де інтуїтивно немає очевидної функції винагороди. Візьмемо, наприклад, завдання керування автомобілем. Є багато різних цілей, які виконуються одночасно - наприклад, підтримувати безпечну дистанцію, хорошу швидкість, не надто часто змінювати смугу руху тощо. Це завдання може здатися легким на перший погляд, але тривіальна функція винагороди може не збігатися з бажаною політикою.
Системний модельний підхід
Системні моделі намагаються імітувати експерта, моделюючи світову динаміку.
Плановий підхід
Система вивчає правила, щоб пов’язувати передумови та постумови з кожною дією. В одній демонстрації 1994 року гуманоїд вивчає узагальнений план лише з двох демонстрацій повторюваного завдання зі збору м’яча.
Приклад
Навчання на демонстрації часто пояснюється з точки зору того, що робоча [en] доступна і людина-демонстратор використовує її. І справді, якщо програмне забезпечення працює, людина-оператор бере робо-руку, робить нею рух, а робот потім відтворює дію. Наприклад, він вчить робо-руку, як поставити чашку під кавоварку і натиснути кнопку запуску. У фазі відтворення робот імітує цю поведінку 1 в 1. Але це не те, як система працює всередині; це лише те, що може спостерігати глядач. Насправді навчання на демонстрації набагато складніше. Однією з перших робіт про навчання роботів-учнів (антропоморфні роботи, що навчаються шляхом імітації) була докторська дисертація Адріана Стойки в 1995 році.
У 1997 році експерт з робототехніки [en] працював над роботом-рукою Sarcos. Мета була проста: розв’язати задачу про розгойдування маятника. Робот сам може виконувати рух, і в результаті маятник рухається. Проблема в тому, що незрозуміло, які дії призведуть до якого руху. Це задача оптимального керування, яку можна описати математичними формулами, але її важко вирішити. Ідея Шаала полягала в тому, щоб не використовувати пошук грубою силою, а записувати рухи людини-демонстрації. Кут маятника реєструється протягом трьох секунд по осі y. Це призводить до діаграми, яка створює візерунок.
час (секунди) | кут (радіани) |
---|---|
0 | -3.0 |
0.5 | -2.8 |
1.0 | -4.5 |
1.5 | -1.0 |
У комп’ютерній анімації цей принцип називається [en]. Це означає, що на осі абсцис задано час, наприклад 0,5 секунди, 1,0 секунди, 1,5 секунди, а на осі у – задана змінна. У більшості випадків це положення об’єкта. У перевернутому маятнику це кут.
Загальне завдання складається з двох частин: запис кута в часі та відтворення записаного руху. Етап відтворення напрочуд простий. Як вхідні дані ми знаємо, на якому кроці часу який кут має мати маятник. Переведення системи в стан називається «контролем стеження» або ПІД-регулюванням. Це означає, що у нас є траєкторія в часі, і ми повинні знайти керуючі дії, щоб відобразити систему на цю траєкторію. Інші автори називають принцип «кермовою поведінкою», оскільки метою є привести робота до заданої лінії.
Дивись також
Список літератури
- "Apprenticeship learning via inverse reinforcement learning". , Andrew Ng, In 21st International Conference on Machine Learning (ICML). 2004.
- Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett (May 2009). A survey of robot learning from demonstration. Robotics and Autonomous Systems. 57 (5): 469—483. doi:10.1016/j.robot.2008.10.024. S2CID 1045325.
- Wolchover, Natalie. This Artificial Intelligence Pioneer Has a Few Concerns. WIRED. Процитовано 22 January 2018.
- Russell, Stuart (1998). Learning agents for uncertain environments. Proceedings of the eleventh annual conference on Computational learning theory. с. 101—103. doi:10.1145/279943.279964.
- Havens, John C. (23 June 2015). The ethics of AI: how to stop your robot cooking your cat. the Guardian. Процитовано 22 January 2018.
- Artificial Intelligence And The King Midas Problem. Huffington Post. 12 December 2016. Процитовано 22 January 2018.
- Hadfield-Menell, D., Russell, S. J., Abbeel, Pieter & Dragan, A. (2016). Cooperative inverse reinforcement learning. In Advances in neural information processing systems (pp. 3909-3917).
- Two Giants of AI Team Up to Head Off the Robot Apocalypse. WIRED. 7 July 2017. Процитовано 29 January 2018.
- Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems (pp. 4302-4310).
- Stoica, Adrian (1995). Motion learning by robot apprentices : a fuzzy neural approach (Дипломна робота) (англ.). Victoria University of Technology.https://vuir.vu.edu.au/15323/
- Atkeson, Christopher G., and Stefan Schaal (1997). Learning tasks from a single demonstration. Proceedings of International Conference on Robotics and Automation (PDF). Т. 2. IEEE. с. 1706—1712. doi:10.1109/robot.1997.614389. ISBN .
- Baris Akgun and Maya Cakmak and Karl Jiang and Andrea L. Thomaz (2012). Keyframe-based Learning from Demonstration (PDF). International Journal of Social Robotics. 4: 343—355. doi:10.1007/s12369-012-0160-0.
- Reynolds, Craig W. (1999). Steering behaviors for autonomous characters. Game developers conference. с. 763—782.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U sferi shtuchnogo intelektu pidmajstrove navchannya abo navchannya na osnovi demonstraciyi chi imitacijne navchannya ce proces navchannya shlyahom sposterezhennya eksperta Jogo mozhna rozglyadati yak formu navchannya pid kerivnictvom de navchalnij nabir danih skladayetsya z vikonannya zavdan uchitelem demonstraciyeyu Pidhid funkciyi vidobrazhennyaMetodi vidobrazhennya namagayutsya imituvati eksperta shlyahom formuvannya pryamogo vidobrazhennya abo vid staniv do dij abo vid staniv do znachen vinagorodi Napriklad u 2002 roci doslidniki vikoristali takij pidhid shob navchiti robota AIBO bazovim futbolnim navichkam Navchalnij pidhid iz zvorotnim pidkriplennyam Navchannya zi zvorotnim pidkriplennyam IRL ce proces vivedennya funkciyi vinagorodi z povedinki sho sposterigayetsya U toj chas yak zvichajne navchannya z pidkriplennyam peredbachaye vikoristannya vinagorod i pokaran dlya vivchennya povedinki u IRL napryamok zminyuyetsya i robot sposterigaye za povedinkoyu lyudini shob zrozumiti yaku metu cya povedinka zdayetsya namagayetsya dosyagti Problemu IRL mozhna viznachiti yak Dano 1 vimiryuvannya povedinki agenta v chasi za riznih obstavin 2 vimiryuvannya sensornih vhidnih danih dlya cogo agenta 3 model fizichnogo seredovisha vklyuchayuchi tilo agenta viznachte funkciyu vinagorodi yaku optimizuye agent Doslidnik IRL en pripuskaye sho IRL mozhna vikoristovuvati dlya sposterezhennya za lyudmi ta sprob kodifikaciyi yihnih skladnih etichnih cinnostej namagayuchis stvoriti etichnih robotiv yaki odnogo razu znatimut sho ne variti tvogo kota bez neobhidnosti kazati yim cogo napryamu Scenarij mozhna zmodelyuvati yak kooperativnu inversnu navchalnu gru z pidkriplennyam de gravec lyudina ta gravec robot spivpracyuyut shob zabezpechiti neyavni cili lyudini nezvazhayuchi na te sho ci cili yavno ne vidomi ni lyudini ni robotu U 2017 roci OpenAI i DeepMind zastosuvali gliboke navchannya do kooperativnogo navchannya zvorotnogo pidkriplennya v prostih oblastyah takih yak igri Atari i zvichajni zavdannya robotiv taki yak salto nazad Rol lyudini obmezhuvalasya vidpoviddyu na zapiti robota shodo togo yaka z dvoh riznih dij ye krashoyu Doslidniki znajshli dokazi togo sho metodi mozhut buti ekonomichno masshtabovanimi dlya suchasnih sistem Pidmajstrove navchannya cherez zvorotne pidkriplyuyuche navchannya AIRP bulo rozrobleno u 2004 roci en profesorom kafedri EE CS Berkli ta Endryu Ngom docentom fakultetu komp yuternih nauk Stenfordskogo universitetu AIRP maye spravu z Markovskim procesom prijnyattya rishen de nam yavno ne nadayetsya funkciya vinagorodi ale zamist cogo mi mozhemo sposterigati yak ekspert demonstruye zavdannya yake mi hochemo navchitisya vikonuvati AIRP vikoristovuvavsya dlya modelyuvannya funkcij vinagorodi u visokodinamichnih scenariyah de intuyitivno nemaye ochevidnoyi funkciyi vinagorodi Vizmemo napriklad zavdannya keruvannya avtomobilem Ye bagato riznih cilej yaki vikonuyutsya odnochasno napriklad pidtrimuvati bezpechnu distanciyu horoshu shvidkist ne nadto chasto zminyuvati smugu ruhu tosho Ce zavdannya mozhe zdatisya legkim na pershij poglyad ale trivialna funkciya vinagorodi mozhe ne zbigatisya z bazhanoyu politikoyu Sistemnij modelnij pidhid Sistemni modeli namagayutsya imituvati eksperta modelyuyuchi svitovu dinamiku Planovij pidhidSistema vivchaye pravila shob pov yazuvati peredumovi ta postumovi z kozhnoyu diyeyu V odnij demonstraciyi 1994 roku gumanoyid vivchaye uzagalnenij plan lishe z dvoh demonstracij povtoryuvanogo zavdannya zi zboru m yacha PrikladNavchannya na demonstraciyi chasto poyasnyuyetsya z tochki zoru togo sho robocha en dostupna i lyudina demonstrator vikoristovuye yiyi I spravdi yaksho programne zabezpechennya pracyuye lyudina operator bere robo ruku robit neyu ruh a robot potim vidtvoryuye diyu Napriklad vin vchit robo ruku yak postaviti chashku pid kavovarku i natisnuti knopku zapusku U fazi vidtvorennya robot imituye cyu povedinku 1 v 1 Ale ce ne te yak sistema pracyuye vseredini ce lishe te sho mozhe sposterigati glyadach Naspravdi navchannya na demonstraciyi nabagato skladnishe Odniyeyu z pershih robit pro navchannya robotiv uchniv antropomorfni roboti sho navchayutsya shlyahom imitaciyi bula doktorska disertaciya Adriana Stojki v 1995 roci U 1997 roci ekspert z robototehniki en pracyuvav nad robotom rukoyu Sarcos Meta bula prosta rozv yazati zadachu pro rozgojduvannya mayatnika Robot sam mozhe vikonuvati ruh i v rezultati mayatnik ruhayetsya Problema v tomu sho nezrozumilo yaki diyi prizvedut do yakogo ruhu Ce zadacha optimalnogo keruvannya yaku mozhna opisati matematichnimi formulami ale yiyi vazhko virishiti Ideya Shaala polyagala v tomu shob ne vikoristovuvati poshuk gruboyu siloyu a zapisuvati ruhi lyudini demonstraciyi Kut mayatnika reyestruyetsya protyagom troh sekund po osi y Ce prizvodit do diagrami yaka stvoryuye vizerunok Trayektoriya v chasi chas sekundi kut radiani 0 3 0 0 5 2 8 1 0 4 5 1 5 1 0 U komp yuternij animaciyi cej princip nazivayetsya en Ce oznachaye sho na osi abscis zadano chas napriklad 0 5 sekundi 1 0 sekundi 1 5 sekundi a na osi u zadana zminna U bilshosti vipadkiv ce polozhennya ob yekta U perevernutomu mayatniku ce kut Zagalne zavdannya skladayetsya z dvoh chastin zapis kuta v chasi ta vidtvorennya zapisanogo ruhu Etap vidtvorennya naprochud prostij Yak vhidni dani mi znayemo na yakomu kroci chasu yakij kut maye mati mayatnik Perevedennya sistemi v stan nazivayetsya kontrolem stezhennya abo PID regulyuvannyam Ce oznachaye sho u nas ye trayektoriya v chasi i mi povinni znajti keruyuchi diyi shob vidobraziti sistemu na cyu trayektoriyu Inshi avtori nazivayut princip kermovoyu povedinkoyu oskilki metoyu ye privesti robota do zadanoyi liniyi Divis takozhNavchannya z pidkriplennyamSpisok literaturi Apprenticeship learning via inverse reinforcement learning Andrew Ng In 21st International Conference on Machine Learning ICML 2004 Argall Brenna D Chernova Sonia Veloso Manuela Browning Brett May 2009 A survey of robot learning from demonstration Robotics and Autonomous Systems 57 5 469 483 doi 10 1016 j robot 2008 10 024 S2CID 1045325 Wolchover Natalie This Artificial Intelligence Pioneer Has a Few Concerns WIRED Procitovano 22 January 2018 Russell Stuart 1998 Learning agents for uncertain environments Proceedings of the eleventh annual conference on Computational learning theory s 101 103 doi 10 1145 279943 279964 Havens John C 23 June 2015 The ethics of AI how to stop your robot cooking your cat the Guardian Procitovano 22 January 2018 Artificial Intelligence And The King Midas Problem Huffington Post 12 December 2016 Procitovano 22 January 2018 Hadfield Menell D Russell S J Abbeel Pieter amp Dragan A 2016 Cooperative inverse reinforcement learning In Advances in neural information processing systems pp 3909 3917 Two Giants of AI Team Up to Head Off the Robot Apocalypse WIRED 7 July 2017 Procitovano 29 January 2018 Christiano P F Leike J Brown T Martic M Legg S amp Amodei D 2017 Deep reinforcement learning from human preferences In Advances in Neural Information Processing Systems pp 4302 4310 Stoica Adrian 1995 Motion learning by robot apprentices a fuzzy neural approach Diplomna robota angl Victoria University of Technology https vuir vu edu au 15323 Atkeson Christopher G and Stefan Schaal 1997 Learning tasks from a single demonstration Proceedings of International Conference on Robotics and Automation PDF T 2 IEEE s 1706 1712 doi 10 1109 robot 1997 614389 ISBN 978 0 7803 3612 4 Baris Akgun and Maya Cakmak and Karl Jiang and Andrea L Thomaz 2012 Keyframe based Learning from Demonstration PDF International Journal of Social Robotics 4 343 355 doi 10 1007 s12369 012 0160 0 Reynolds Craig W 1999 Steering behaviors for autonomous characters Game developers conference s 763 782