TD-нарди — це комп'ютерна програма для гри в нарди, розроблена в 1992 р. Джеральдом Тезауро в [en] IBM. Назва програми походить від того факту, що це штучна нейронна мережа, навчена за допомогою методу часових різниць, а саме методу TD-лямбда створеного Річардом Саттоном.
TD-нарди досягла рівня гри трохи нижче, ніж у найкращих гравців у нарди того часу. В ній були досліджені стратегії, які не використовувалися людьми, і було досягнуто успіхів у теорії правильної гри в нарди.
Алгоритм гри та навчання
Під час гри TD-нарди перевіряє на кожному ходу всі можливі допустимі ходи та всі їхні можливі відповіді (двошаровий перегляд вперед), передає кожну результуючу позицію на дошці в свою оцінювальну функцію та обирає хід, що призводить до позиції на дошці, яка отримала найбільшу кількість очок. Щодо цього відношення TD-нарди нічим не відрізняються від майже будь-якої іншої комп'ютерної програми для настільних ігор. Інновація TD-нардів полягала у тому, як вона навчилася своєї функцію оцінки.
Алгоритм навчання TD-нардів полягає в оновленні ваги в її нейронній мережі після кожного ходу, щоб зменшити різницю між оцінкою позицій дошки в попередніх ходах і оцінкою позиції дошки в поточному ходу — звідси і «метод часових різниць». Рахунок будь-якої позиції на дошці — це набір із чотирьох чисел, що відображають оцінку програмою ймовірності кожного можливого результату гри: білі зазвичай перемагають, чорні зазвичай перемагають, білі виграють гру, чорні виграють гру. Для остаточного становища дошки у грі алгоритм порівнює з фактичним результатом гри, а не з власною оцінкою положення дошки.
Алгоритм навчання оновлює кожну вагу після кожного ходу в нейронній мережі відповідно до цього правила:
де:
це сума зміни ваги, порівняно з його значенням на попередньому ходу. | |
це різниця між оцінками дошки поточного та попереднього ходу. | |
це параметр «темп навчання». | |
це параметр, який впливає на те, наскільки існуюча різниця в оцінці поточного стану дошки має відповідати попереднім оцінкам. змушує програму коригувати лише оцінку попереднього ходу; робить спробу програми скоригувати оцінки на всіх попередніх ходах; та значення від 0 до 1 вказує різні швидкості, з якими важливість старих оцінок має з часом «зменшуватися». | |
це градієнт результату нейронної мережі по відношенню до ваги: тобто, наскільки зміна ваги впливає на результат |
Експерименти та етапи навчання
На відміну від попередніх нейромережевих програм гри в нарди, таких як [en] (також написана Тезауро), де експерт навчав програму, надаючи «правильну» оцінку кожної позиції, TD-нарди спочатку була запрограмована «без знань». У ранніх експериментах, використовуючи лише кодування дошки без будь-яких функцій, розроблених людиною (програма самостійно давала оцінку кожному стану), TD-нарди досягла рівня гри, порівнянного з Neurogammon: рівня гри в нарди середнього рівня.
Незважаючи на те, що TD-Gammon виявила цікаві закономірності самостійно, Тезауро ставив питання, чи можна покращити його гру, використовуючи розроблені вручну функції, такі як Neurogammon. Справді, TD-нарди, що самонавчались, з функціями, розробленими експертами, незабаром перевершила усі попередні комп'ютерні програми для нард. Програма перестала покращуватися приблизно після 1 500 000 ігор (самостійних ігор) із використанням 80 прихованих вузлів нейронної мережі.
Успіхи теорії нард
Ексклюзивне навчання TD-нардів за допомогою гри зі самим собою дозволило їй вивчити стратегії, які раніше люди не розглядали або виключали помилково. Її успіх у використанні нестандартних стратегій вплинув на спільноту любителів нард.
Наприклад, у дебютній грі прийнято вважати, що при кидку 2-1, 4-1 або 5-1 білі повинні перемістити одну шашку з точки 6 до точки 5. Це називається «прорізування». Техніка балансує ризиком на можливість розвинути агресивну позицію. TD-нарди виявила, що більш консервативна гра 24-23 — краще. Турнірні гравці почали експериментувати та застосовувати тактику TD-нардів і досягли успіху. За кілька років техніка прорізування зникла з турнірів. (Тим не менш, вона іноді з'являється при кидку 2-1.)
Експерт з нардів [en] виявив, що оцінювання позицій дошки TD-нардів, особливо її зважування між ризиком та безпечною грою, було кращим за його власне або будь-якої людини.
Чудова позиційна гра TD-нардів псується іноді невдалою грою в ендшпілі. Ендшпіль вимагає більш аналітичного підходу, іноді з детальним прогнозом. Використання двошарового підходу TD-нардів створює обмеження щодо того, чого вона може досягти у цій частині гри. Сильні та слабкі сторони TD-нардів були протилежні програмам [en] та більшості комп'ютерних програм загалом: програма добре розв'язувала питання, які вимагають інтуїтивного «відчуття», але погано справлялася із систематичним аналізом.
Посилання
- Tesauro, Gerald (March 1995). . Communications of the ACM. 38 (3). doi:10.1145/203330.203343. Архів оригіналу за 9 лютого 2010. Процитовано 1 листопада 2013.
- Sutton, Richard S.; Andrew G. Barto (1998). . MIT Press. с. Table 11.1. Архів оригіналу за 15 травня 2021. Процитовано 23 грудня 2021.
- . Архів оригіналу за 27 жовтня 2021. Процитовано 23 грудня 2021.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
TD nardi ce komp yuterna programa dlya gri v nardi rozroblena v 1992 r Dzheraldom Tezauro v en IBM Nazva programi pohodit vid togo faktu sho ce shtuchna nejronna merezha navchena za dopomogoyu metodu chasovih riznic a same metodu TD lyambda stvorenogo Richardom Sattonom TD nardi dosyagla rivnya gri trohi nizhche nizh u najkrashih gravciv u nardi togo chasu V nij buli doslidzheni strategiyi yaki ne vikoristovuvalisya lyudmi i bulo dosyagnuto uspihiv u teoriyi pravilnoyi gri v nardi Algoritm gri ta navchannyaPid chas gri TD nardi pereviryaye na kozhnomu hodu vsi mozhlivi dopustimi hodi ta vsi yihni mozhlivi vidpovidi dvosharovij pereglyad vpered peredaye kozhnu rezultuyuchu poziciyu na doshci v svoyu ocinyuvalnu funkciyu ta obiraye hid sho prizvodit do poziciyi na doshci yaka otrimala najbilshu kilkist ochok Shodo cogo vidnoshennya TD nardi nichim ne vidriznyayutsya vid majzhe bud yakoyi inshoyi komp yuternoyi programi dlya nastilnih igor Innovaciya TD nardiv polyagala u tomu yak vona navchilasya svoyeyi funkciyu ocinki Algoritm navchannya TD nardiv polyagaye v onovlenni vagi v yiyi nejronnij merezhi pislya kozhnogo hodu shob zmenshiti riznicyu mizh ocinkoyu pozicij doshki v poperednih hodah i ocinkoyu poziciyi doshki v potochnomu hodu zvidsi i metod chasovih riznic Rahunok bud yakoyi poziciyi na doshci ce nabir iz chotiroh chisel sho vidobrazhayut ocinku programoyu jmovirnosti kozhnogo mozhlivogo rezultatu gri bili zazvichaj peremagayut chorni zazvichaj peremagayut bili vigrayut gru chorni vigrayut gru Dlya ostatochnogo stanovisha doshki u gri algoritm porivnyuye z faktichnim rezultatom gri a ne z vlasnoyu ocinkoyu polozhennya doshki Algoritm navchannya onovlyuye kozhnu vagu pislya kozhnogo hodu v nejronnij merezhi vidpovidno do cogo pravila w t 1 w t a Y t 1 Y t k 1 t l t k w Y k displaystyle w t 1 w t alpha Y t 1 Y t sum k 1 t lambda t k nabla w Y k de w t 1 w t displaystyle w t 1 w t ce suma zmini vagi porivnyano z jogo znachennyam na poperednomu hodu Y t 1 Y t displaystyle Y t 1 Y t ce riznicya mizh ocinkami doshki potochnogo ta poperednogo hodu a displaystyle alpha ce parametr temp navchannya l displaystyle lambda ce parametr yakij vplivaye na te naskilki isnuyucha riznicya v ocinci potochnogo stanu doshki maye vidpovidati poperednim ocinkam l 0 displaystyle lambda 0 zmushuye programu koriguvati lishe ocinku poperednogo hodu l 1 displaystyle lambda 1 robit sprobu programi skoriguvati ocinki na vsih poperednih hodah ta znachennya l displaystyle lambda vid 0 do 1 vkazuye rizni shvidkosti z yakimi vazhlivist starih ocinok maye z chasom zmenshuvatisya w Y k displaystyle nabla w Y k ce gradiyent rezultatu nejronnoyi merezhi po vidnoshennyu do vagi tobto naskilki zmina vagi vplivaye na rezultatEksperimenti ta etapi navchannyaNa vidminu vid poperednih nejromerezhevih program gri v nardi takih yak en takozh napisana Tezauro de ekspert navchav programu nadayuchi pravilnu ocinku kozhnoyi poziciyi TD nardi spochatku bula zaprogramovana bez znan U rannih eksperimentah vikoristovuyuchi lishe koduvannya doshki bez bud yakih funkcij rozroblenih lyudinoyu programa samostijno davala ocinku kozhnomu stanu TD nardi dosyagla rivnya gri porivnyannogo z Neurogammon rivnya gri v nardi serednogo rivnya Nezvazhayuchi na te sho TD Gammon viyavila cikavi zakonomirnosti samostijno Tezauro staviv pitannya chi mozhna pokrashiti jogo gru vikoristovuyuchi rozrobleni vruchnu funkciyi taki yak Neurogammon Spravdi TD nardi sho samonavchalis z funkciyami rozroblenimi ekspertami nezabarom perevershila usi poperedni komp yuterni programi dlya nard Programa perestala pokrashuvatisya priblizno pislya 1 500 000 igor samostijnih igor iz vikoristannyam 80 prihovanih vuzliv nejronnoyi merezhi Uspihi teoriyi nardEksklyuzivne navchannya TD nardiv za dopomogoyu gri zi samim soboyu dozvolilo yij vivchiti strategiyi yaki ranishe lyudi ne rozglyadali abo viklyuchali pomilkovo Yiyi uspih u vikoristanni nestandartnih strategij vplinuv na spilnotu lyubiteliv nard Napriklad u debyutnij gri prijnyato vvazhati sho pri kidku 2 1 4 1 abo 5 1 bili povinni peremistiti odnu shashku z tochki 6 do tochki 5 Ce nazivayetsya prorizuvannya Tehnika balansuye rizikom na mozhlivist rozvinuti agresivnu poziciyu TD nardi viyavila sho bilsh konservativna gra 24 23 krashe Turnirni gravci pochali eksperimentuvati ta zastosovuvati taktiku TD nardiv i dosyagli uspihu Za kilka rokiv tehnika prorizuvannya znikla z turniriv Tim ne mensh vona inodi z yavlyayetsya pri kidku 2 1 Ekspert z nardiv en viyaviv sho ocinyuvannya pozicij doshki TD nardiv osoblivo yiyi zvazhuvannya mizh rizikom ta bezpechnoyu groyu bulo krashim za jogo vlasne abo bud yakoyi lyudini Chudova pozicijna gra TD nardiv psuyetsya inodi nevdaloyu groyu v endshpili Endshpil vimagaye bilsh analitichnogo pidhodu inodi z detalnim prognozom Vikoristannya dvosharovogo pidhodu TD nardiv stvoryuye obmezhennya shodo togo chogo vona mozhe dosyagti u cij chastini gri Silni ta slabki storoni TD nardiv buli protilezhni programam en ta bilshosti komp yuternih program zagalom programa dobre rozv yazuvala pitannya yaki vimagayut intuyitivnogo vidchuttya ale pogano spravlyalasya iz sistematichnim analizom PosilannyaTesauro Gerald March 1995 Communications of the ACM 38 3 doi 10 1145 203330 203343 Arhiv originalu za 9 lyutogo 2010 Procitovano 1 listopada 2013 Sutton Richard S Andrew G Barto 1998 MIT Press s Table 11 1 Arhiv originalu za 15 travnya 2021 Procitovano 23 grudnya 2021 Arhiv originalu za 27 zhovtnya 2021 Procitovano 23 grudnya 2021