Індекс Гіттінса — це показник винагороди, яку можна отримати у відповідності з даним випадковим процесом з певними властивостями, а саме: процес має кінцевий термінальний стан і є можливість завершення на будь-якому проміжному стані. При завершенні в певному стані винагорода, яка отримана, є сумою ймовірнісно-очікуваних винагород, пов'язаних з кожним станом, починаючи з фактичного стану завершення та закінчуючи кінцевим термінальним станом, включно. Індекс є дійсним скаляром.
Термінологія
Щоб проілюструвати теорію, розглянемо два приклади з сектору, що розвивається, наприклад, з технологій виробництва електроенергії: енергія вітру та енергія хвиль. Якщо нам буде представлено обидві технології, коли вони пропонуються лише як ідеї, ми не можемо сказати, яка буде кращою у довгостроковій перспективі, оскільки ми ще не маємо даних, на яких ми могли б базувати наші судження. Легко припустити, що хвильова енергія буде більш проблематичною для розвитку, оскільки здається, що легше поставити багато вітрових турбін, ніж виготовити довгі плавучі генератори, відбуксирувати їх у море і прокласти необхідні кабелі.
Якщо ми зробимо висновок на ранньому етапі розвитку, ми можемо відмовитися від однієї технології, та відкласти її на полицю, тоді як інша буде розвиватися та вводитися в експлуатацію. Якщо ми розвиватимемо обидві технології, то зможемо зробити висновки щодо кожної, порівнюючи прогрес через фіксований інтервал часу, наприклад, кожні три місяці. Рішення щодо інвестицій у наступний етап, будуть ґрунтуватися на цих результатах.
У статті 1979 року під назвою «Bandit Processes and Dynamic Allocation Indices» [en] пропонує рішення для таких проблем. Він бере дві основні функції «проблеми планування» та задачу «багаторукого бандита» і показує, як ці задачі можуть бути вирішені за допомогою динамічних індексів розподілу. Спочатку він розглядає «проблему планування» і зводить її до механізму, який повинен виконувати завдання протягом певного періоду, наприклад, кожну годину чи день, щоб завершити кожне завдання. Механізму надається винагорода на основі завершення або незавершення завдання протягом цього періоду, і розраховується ймовірність завершення або незавершення для кожного завдання. Проблема полягає в тому, «яке завдання обрати для обробки наступним на кожному етапі, щоб максимізувати загальну очікувану винагороду». Потім він переходить до «задачі багаторукого бандита», де кожна дія з важелем «однорукого бандита» відповідає функції винагороди за успіх і нульовій винагороді за невдачу. Послідовність успіхів формує [en] і має невідому ймовірність успіху. Є кілька «бандитів», і розподіл успішних важелів розраховується і відрізняється для кожного механізму. Гіттінс стверджує, що проблема полягає в тому, «який важіль обрати наступним на кожному етапі, щоб максимізувати загальну очікувану винагороду з нескінченної послідовності важелів».
Також, згідно Гіттінсу: «Обидві описані вище проблеми включають послідовність рішень, кожне з яких базується на більшій кількості інформації, ніж попереднє, і обидві ці проблеми можна вирішити за допомогою динамічного розподілу індексів.»
Визначення
У прикладній математиці «індекс Гіттінса» — це дійсний скаляр, що пов'язаний зі станом випадкового процесу з функцією винагороди та ймовірністю завершення. Це показник винагороди, яку можна досягти через розвиток процесу від цього стану, при ймовірності його завершення у майбутньому. «Стратегія індексу», яка виникає з індексу Гіттінса і полягає у виборі на будь-який момент часу випадкового процесу з поточно найвищим індексом Гіттінса, є рішенням деяких проблем зупинки, таких як проблема динамічного розподілу, де той, хто приймає рішення, повинен максимізувати загальну винагороду, розподіляючи обмежену кількість зусиль на кілька конкуруючих проектів, кожен з яких повертає випадкову винагороду. Якщо проекти незалежні один від одного і тільки один проект може розвиватися в один момент часу, проблема називається багаторуким бандитом (одним з типів задач [en]), і стратегія індексу Гіттінса є оптимальною. Якщо декілька проектів може розвиватися, проблема називається «невгамовний бандит», і стратегія індексу Гіттінса є відомою евристикою, але взагалі не існує оптимального розв'язку. Взагалі ця проблема є NP-повною, і вважається, що неможливо досягнути розв'язку.
Історія
Питання щодо оптимальних стратегій зупинки в контексті клінічних випробувань були актуальні з 1940-х років, а в 1960-х кілька авторів проаналізували прості моделі, що привели до оптимальних стратегій індекснів, але лише в 1970-х роках [en] та його співробітники продемонстрували в марковській моделі, що оптимальний розв'язок загального випадку — це стратегія індексу, для якої індекс динамічного розподілу може бути обчислений для кожного стану кожного проекту, як функція динаміки окремого проекту. Паралельно з Гіттінсом, [en] встановив той самий результат в економічній літературі.
Незабаром після першоджерельної роботи Гіттінса, [en] продемонстрував, що індекс виникає як множник Лагранжа з проблеми динамічного програмування під назвою процес відставки, і припустив, що той самий індекс був би гарним евристичним підходом в більш загальній установці, яку назвали «Невгамовний бандит». Питання того, як саме обчислити індекс для ланцюгів Маркова, вперше було розглянуте Варайя та його співробітниками за допомогою алгоритму, що обчислює індекси від найбільшого до найменшого, а також Ченом і Катехакісом, які показали, що стандартне лінійне програмування можна використовувати для обчислення індексу стану, не вимагаючи його обчислення для всіх станів із вищими значеннями індексу. Л. К. М. Калленберг надав параметричну реалізацію лінійного програмування для обчислення індексів для всіх станів марковського ланцюга. Крім того, Катехакіс і Вейнотт продемонстрували, що індекс є очікуваною винагородою марковського процесу прийняття рішень, відомого як «перезапуск у стані», і може бути точно обчислений шляхом розв'язання цієї задачі алгоритмом ітерації стратегії або приблизно алгоритмом ітерації значення. Цей підхід також має перевагу обчислення індексу для конкретного стану без необхідності обчислення всіх більших індексів, і він є дійсним при більш загальних умовах простору станів. У 2004 році Сонін отримав швидший алгоритм для обчислення всіх індексів як наслідок його алгоритму елімінації для оптимальної зупинки ланцюга Маркова. У цьому алгоритмі ймовірність припинення процесу може залежати від поточного стану, а не бути фіксованим фактором. Більш швидкий алгоритм був запропонований у 2007 році Ніно-Мора, який використовував структуру параметричного симплексу для зменшення обчислювальних зусиль опорних кроків, досягаючи такої ж складності, як алгоритм виключення Гауса. У 2014 році Коуен, В. і Катехакіс надають розв'язок проблеми з можливо немарковими, нескінченними процесами винагороди з простором станів під каркасами, в яких або коефіцієнти зниження можуть бути неоднорідними та змінюватися з часом, або періоди активації кожного бандита можуть бути не фіксованими або рівномірними, але піддаються можливо випадковій тривалості активації, перш ніж дозволяється зміна на іншого бандита. Розв'язок ґрунтується на узагальнених індексах перезапусків у станах.
Математичне визначення
Індекс динамічного розподілу
Класичне визначення Гіттінса та ін. це:
де — це випадковий процес, — це рентабільність (або винагорода), пов'язана з дискретним станом , — це ймовірність того, що випадковий процес не завершується, і — це умовний оператор очікування, який залежить від c :
де — це область визначення X .
Формулювання процесу відставки
Формулювання динамічного програмування з точки зору процесу відставки, дане Уіттлом, таке:
де є функцією значення
з тими самими позначеннями, що й вище.
Справедливо наступне:
Формулювання перезапуску в стані
Коли — це ланцюг Маркова з винагородами, тоді інтерпретація [en] та Вейнота (1987) пов'язує з кожним станом ланцюга дію перезапуску з довільного стану , що будує марковський процес прийняття рішень .
Індекс Гіттінса цього стану — це найбільша загальна винагорода, яку можна отримати на процессі , якщо завжди можна вибрати між продовженням та перезапуском з стану .
де — стратегія .
Справедливо наступне:
- .
Узагальнений індекс
Якщо ймовірність не припинення залежить від стану , то узагальнення, що введене Соніним (2008), визначає індекс Гіттінса як максимальну зниженну загальну винагороду за шанс припинення.
де
Якщо замінити на у визначеннях , та , тоді справедливо наступне:
Це спостереження приводить Соніна до висновку, що не , а є «справжнім значенням» індексу Гіттінса.
Теорія масового обслуговування
У теорії масового обслуговування індекс Гіттінса використовується для визначення оптимального планування завдань, наприклад, у черзі M/G/1. Середній час виконання завдань за графіком індексу Гіттінса можна визначити за допомогою підходу SOAP. Варто зазначити, що динаміка черги є Марковою властивістю, а випадковість виникає через процеси прибуття та обслуговування. Це відрізняється у більшості робіт навчальної літературі, де випадковість явно враховується через параметр .
Проблеми з раціональними винагородами
При традиційних індексах Гіттінса встановлюється стратегія для оптимізації накопичення винагороди, але у загальній задачі часто йдеться про оптимізацію співвідношення накопичених винагород. Наприклад, це стосується систем, що максимізують пропускну здатність шляхом додавання даних протягом часу, або мінімізують споживання енергії шляхом додавання енергії протягом часу.
Цей клас задач відрізняється від оптимізації напівмарківського процесу винагород, яка може обирати стани з непропорційним часом перебування лише для накопичення вищої винагороди. З іншого боку, він відповідає класу задач оптимізації дробово-лінійних марківських винагород.
Однак негативним аспектом такої оптимізації співвідношення є те, що при великому співвідношенні у деякому стані оптимізація може обирати стани, які призводять до низького співвідношення через велику ймовірність завершення процесу. Це зумовлено тим, що ймовірно процес завершиться перш, ніж співвідношення значно зменшиться. Формулювання задачі запобігання такого раннього завершення полягає у визначенні оптимізації як максимізації майбутнього співвідношення, яке враховує кожний стан. Припускається, що існує індексація для цієї проблеми, яка може бути обчислена як проста варіація існуючих алгоритмів перезапуску в стані або алгоритмів видалення стану та оцінена як ефективна на практиці.
Примітки
- Cowan, Robin (July 1991). Tortoises and Hares: Choice among technologies of unknown merit. The Economic Journal. 101 (407): 801—814. doi:10.2307/2233856. JSTOR 2233856.
- Gittins, J. C. (1979). Bandit Processes and Dynamic Allocation Indices. Journal of the Royal Statistical Society. Series B (Methodological). 41 (2): 148—177. doi:10.1111/j.2517-6161.1979.tb01068.x. JSTOR 2985029. S2CID 17724147.
- Mitten L (1960). An Analytic Solution to the Least Cost Testing Sequence Problem. Journal of Industrial Engineering. 11 (1): 17.
- Gittins, J. C.; Jones, D. M. (1979). A Dynamic Allocation Index for the Discounted Multiarmed Bandit Problem. Biometrika. 66 (3): 561—565. doi:10.2307/2335176. JSTOR 2335176.
- Weitzman, Martin L. (1979). Optimal Search for the Best Alternative. Econometrica. 47 (3): 641—654. doi:10.2307/1910412. JSTOR 1910412. S2CID 32530881.
{{}}
:|hdl-access=
вимагає|hdl=
() - Whittle, Peter (1980). Multi-armed Bandits and the Gittins Index. [en]. 42 (2): 143—149.
- Varaiya, P.; Walrand, J.; Buyukkoc, C. (May 1985). Extensions of the multiarmed bandit problem: The discounted case. IEEE Transactions on Automatic Control. 30 (5): 426—439. doi:10.1109/TAC.1985.1103989.
- Chen, Yih Ren; Katehakis, Michael N. (1986). Linear programming for finite state multi-armed bandit problems. [en]. 11 (1): 180—183. doi:10.1287/moor.11.1.180.
- Kallenberg, Lodewijk C. M. (1986). A Note on M. N. Katehakis' and Y.-R. Chen's Computation of the Gittins Index. [en]. 11 (1): 184—186. doi:10.1287/moor.11.1.184.
- Katehakis, Michael N.; Veinott, Jr., Arthur F. (1987). The multi-armed bandit problem: decomposition and computation. [en]. 12 (2): 262—268. doi:10.1287/moor.12.2.262. JSTOR 3689689. S2CID 656323.
- Sonin I (2008). A generalized Gittins index for a Markov chain and its recursive calculation. Statistics and Probability Letters. 78 (12): 1526—1533. doi:10.1016/j.spl.2008.01.049.
- Ni , Mora J (2007). A (2/3)^n Fast-Pivoting Algorithm for the Gittins Index and Optimal Stopping of a Markov Chain. INFORMS Journal on Computing. 19 (4): 596—606. doi:10.1287/ijoc.1060.0206. S2CID 122785013.
- Cowan, Wesley; Katehakis, Michael N. (January 2015). Multi-armed bandits under general depreciation and commitment. Probability in the Engineering and Informational Sciences. 29 (1): 51—76. doi:10.1017/S0269964814000217.
- Scully, Ziv and Harchol-Balter, Mor and Scheller-Wolf, Alan (2018). SOAP: One Clean Analysis of All Age-Based Scheduling Policies. Proceedings of the ACM on Measurement and Analysis of Computing Systems. ACM. 2 (1): 16. doi:10.1145/3179419. S2CID 216145213.
- Di Gregorio, Lorenzo and Frascolla, Valerio (1 жовтня 2019). Handover Optimality in Heterogeneous Networks. 5G World Forum. arXiv:1908.09991v2.
Список літератури
- Scully, Ziv and Harchol-Balter, Mor and Scheller-Wolf, Alan (2018). SOAP: One Clean Analysis of All Age-Based Scheduling Policies. Proceedings of the ACM on Measurement and Analysis of Computing Systems. ACM. 2: 16. doi:10.1145/3179419.
- [en] and Fristedt, Bert (1985). Bandit problems: Sequential allocation of experiments. Monographs on Statistics and Applied Probability. London: Chapman & Hall. ISBN .
- [en] (1989). Multi-armed bandit allocation indices. Wiley-Interscience Series in Systems and Optimization. Chichester: John Wiley & Sons, Ltd. ISBN .
- [en] (November 1992). On the Gittins index for multiarmed bandits. The Annals of Applied Probability. 2: 1024—1033. doi:10.1214/aoap/1177005588. JSTOR 2959678.
- [en]; Veinott, Jr., Arthur F. (1987). The multi-armed bandit problem: decomposition and computation. [en]. 12 (2): 262—268. doi:10.1287/moor.12.2.262. JSTOR 3689689.
- Cowan, W. and [en] (2014). Multi-armed Bandits under General Depreciation and Commitment. Probability in the Engineering and Informational Sciences. 29: 51—76. doi:10.1017/S0269964814000217.
Посилання
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Indeks Gittinsa ce pokaznik vinagorodi yaku mozhna otrimati u vidpovidnosti z danim vipadkovim procesom z pevnimi vlastivostyami a same proces maye kincevij terminalnij stan i ye mozhlivist zavershennya na bud yakomu promizhnomu stani Pri zavershenni v pevnomu stani vinagoroda yaka otrimana ye sumoyu jmovirnisno ochikuvanih vinagorod pov yazanih z kozhnim stanom pochinayuchi z faktichnogo stanu zavershennya ta zakinchuyuchi kincevim terminalnim stanom vklyuchno Indeks ye dijsnim skalyarom TerminologiyaShob proilyustruvati teoriyu rozglyanemo dva prikladi z sektoru sho rozvivayetsya napriklad z tehnologij virobnictva elektroenergiyi energiya vitru ta energiya hvil Yaksho nam bude predstavleno obidvi tehnologiyi koli voni proponuyutsya lishe yak ideyi mi ne mozhemo skazati yaka bude krashoyu u dovgostrokovij perspektivi oskilki mi she ne mayemo danih na yakih mi mogli b bazuvati nashi sudzhennya Legko pripustiti sho hvilova energiya bude bilsh problematichnoyu dlya rozvitku oskilki zdayetsya sho legshe postaviti bagato vitrovih turbin nizh vigotoviti dovgi plavuchi generatori vidbuksiruvati yih u more i proklasti neobhidni kabeli Yaksho mi zrobimo visnovok na rannomu etapi rozvitku mi mozhemo vidmovitisya vid odniyeyi tehnologiyi ta vidklasti yiyi na policyu todi yak insha bude rozvivatisya ta vvoditisya v ekspluataciyu Yaksho mi rozvivatimemo obidvi tehnologiyi to zmozhemo zrobiti visnovki shodo kozhnoyi porivnyuyuchi progres cherez fiksovanij interval chasu napriklad kozhni tri misyaci Rishennya shodo investicij u nastupnij etap budut gruntuvatisya na cih rezultatah U statti 1979 roku pid nazvoyu Bandit Processes and Dynamic Allocation Indices en proponuye rishennya dlya takih problem Vin bere dvi osnovni funkciyi problemi planuvannya ta zadachu bagatorukogo bandita i pokazuye yak ci zadachi mozhut buti virisheni za dopomogoyu dinamichnih indeksiv rozpodilu Spochatku vin rozglyadaye problemu planuvannya i zvodit yiyi do mehanizmu yakij povinen vikonuvati zavdannya protyagom pevnogo periodu napriklad kozhnu godinu chi den shob zavershiti kozhne zavdannya Mehanizmu nadayetsya vinagoroda na osnovi zavershennya abo nezavershennya zavdannya protyagom cogo periodu i rozrahovuyetsya jmovirnist zavershennya abo nezavershennya dlya kozhnogo zavdannya Problema polyagaye v tomu yake zavdannya obrati dlya obrobki nastupnim na kozhnomu etapi shob maksimizuvati zagalnu ochikuvanu vinagorodu Potim vin perehodit do zadachi bagatorukogo bandita de kozhna diya z vazhelem odnorukogo bandita vidpovidaye funkciyi vinagorodi za uspih i nulovij vinagorodi za nevdachu Poslidovnist uspihiv formuye en i maye nevidomu jmovirnist uspihu Ye kilka banditiv i rozpodil uspishnih vazheliv rozrahovuyetsya i vidriznyayetsya dlya kozhnogo mehanizmu Gittins stverdzhuye sho problema polyagaye v tomu yakij vazhil obrati nastupnim na kozhnomu etapi shob maksimizuvati zagalnu ochikuvanu vinagorodu z neskinchennoyi poslidovnosti vazheliv Takozh zgidno Gittinsu Obidvi opisani vishe problemi vklyuchayut poslidovnist rishen kozhne z yakih bazuyetsya na bilshij kilkosti informaciyi nizh poperednye i obidvi ci problemi mozhna virishiti za dopomogoyu dinamichnogo rozpodilu indeksiv ViznachennyaU prikladnij matematici indeks Gittinsa ce dijsnij skalyar sho pov yazanij zi stanom vipadkovogo procesu z funkciyeyu vinagorodi ta jmovirnistyu zavershennya Ce pokaznik vinagorodi yaku mozhna dosyagti cherez rozvitok procesu vid cogo stanu pri jmovirnosti jogo zavershennya u majbutnomu Strategiya indeksu yaka vinikaye z indeksu Gittinsa i polyagaye u vibori na bud yakij moment chasu vipadkovogo procesu z potochno najvishim indeksom Gittinsa ye rishennyam deyakih problem zupinki takih yak problema dinamichnogo rozpodilu de toj hto prijmaye rishennya povinen maksimizuvati zagalnu vinagorodu rozpodilyayuchi obmezhenu kilkist zusil na kilka konkuruyuchih proektiv kozhen z yakih povertaye vipadkovu vinagorodu Yaksho proekti nezalezhni odin vid odnogo i tilki odin proekt mozhe rozvivatisya v odin moment chasu problema nazivayetsya bagatorukim banditom odnim z tipiv zadach en i strategiya indeksu Gittinsa ye optimalnoyu Yaksho dekilka proektiv mozhe rozvivatisya problema nazivayetsya nevgamovnij bandit i strategiya indeksu Gittinsa ye vidomoyu evristikoyu ale vzagali ne isnuye optimalnogo rozv yazku Vzagali cya problema ye NP povnoyu i vvazhayetsya sho nemozhlivo dosyagnuti rozv yazku IstoriyaPitannya shodo optimalnih strategij zupinki v konteksti klinichnih viprobuvan buli aktualni z 1940 h rokiv a v 1960 h kilka avtoriv proanalizuvali prosti modeli sho priveli do optimalnih strategij indeksniv ale lishe v 1970 h rokah en ta jogo spivrobitniki prodemonstruvali v markovskij modeli sho optimalnij rozv yazok zagalnogo vipadku ce strategiya indeksu dlya yakoyi indeks dinamichnogo rozpodilu mozhe buti obchislenij dlya kozhnogo stanu kozhnogo proektu yak funkciya dinamiki okremogo proektu Paralelno z Gittinsom en vstanoviv toj samij rezultat v ekonomichnij literaturi Nezabarom pislya pershodzherelnoyi roboti Gittinsa en prodemonstruvav sho indeks vinikaye yak mnozhnik Lagranzha z problemi dinamichnogo programuvannya pid nazvoyu proces vidstavki i pripustiv sho toj samij indeks buv bi garnim evristichnim pidhodom v bilsh zagalnij ustanovci yaku nazvali Nevgamovnij bandit Pitannya togo yak same obchisliti indeks dlya lancyugiv Markova vpershe bulo rozglyanute Varajya ta jogo spivrobitnikami za dopomogoyu algoritmu sho obchislyuye indeksi vid najbilshogo do najmenshogo a takozh Chenom i Katehakisom yaki pokazali sho standartne linijne programuvannya mozhna vikoristovuvati dlya obchislennya indeksu stanu ne vimagayuchi jogo obchislennya dlya vsih staniv iz vishimi znachennyami indeksu L K M Kallenberg nadav parametrichnu realizaciyu linijnogo programuvannya dlya obchislennya indeksiv dlya vsih staniv markovskogo lancyuga Krim togo Katehakis i Vejnott prodemonstruvali sho indeks ye ochikuvanoyu vinagorodoyu markovskogo procesu prijnyattya rishen vidomogo yak perezapusk u stani i mozhe buti tochno obchislenij shlyahom rozv yazannya ciyeyi zadachi algoritmom iteraciyi strategiyi abo priblizno algoritmom iteraciyi znachennya Cej pidhid takozh maye perevagu obchislennya indeksu dlya konkretnogo stanu bez neobhidnosti obchislennya vsih bilshih indeksiv i vin ye dijsnim pri bilsh zagalnih umovah prostoru staniv U 2004 roci Sonin otrimav shvidshij algoritm dlya obchislennya vsih indeksiv yak naslidok jogo algoritmu eliminaciyi dlya optimalnoyi zupinki lancyuga Markova U comu algoritmi jmovirnist pripinennya procesu mozhe zalezhati vid potochnogo stanu a ne buti fiksovanim faktorom Bilsh shvidkij algoritm buv zaproponovanij u 2007 roci Nino Mora yakij vikoristovuvav strukturu parametrichnogo simpleksu dlya zmenshennya obchislyuvalnih zusil opornih krokiv dosyagayuchi takoyi zh skladnosti yak algoritm viklyuchennya Gausa U 2014 roci Kouen V i Katehakis nadayut rozv yazok problemi z mozhlivo nemarkovimi neskinchennimi procesami vinagorodi z prostorom staniv pid karkasami v yakih abo koeficiyenti znizhennya mozhut buti neodnoridnimi ta zminyuvatisya z chasom abo periodi aktivaciyi kozhnogo bandita mozhut buti ne fiksovanimi abo rivnomirnimi ale piddayutsya mozhlivo vipadkovij trivalosti aktivaciyi persh nizh dozvolyayetsya zmina na inshogo bandita Rozv yazok gruntuyetsya na uzagalnenih indeksah perezapuskiv u stanah Matematichne viznachennyaIndeks dinamichnogo rozpodilu Klasichne viznachennya Gittinsa ta in ce n i sup t gt 0 t 0 t 1 b t R Z t Z 0 i t 0 t 1 b t Z 0 i displaystyle nu i sup tau gt 0 frac left langle sum t 0 tau 1 beta t R Z t right rangle Z 0 i left langle sum t 0 tau 1 beta t right rangle Z 0 i de Z displaystyle Z cdot ce vipadkovij proces R i displaystyle R i ce rentabilnist abo vinagoroda pov yazana z diskretnim stanom i displaystyle i b lt 1 displaystyle beta lt 1 ce jmovirnist togo sho vipadkovij proces ne zavershuyetsya i c displaystyle langle cdot rangle c ce umovnij operator ochikuvannya yakij zalezhit vid c X c x x x P X x c displaystyle langle X rangle c doteq sum x in chi xP X x c de x displaystyle chi ce oblast viznachennya X Formulyuvannya procesu vidstavki Formulyuvannya dinamichnogo programuvannya z tochki zoru procesu vidstavki dane Uittlom take w i inf k v i k k displaystyle w i inf k v i k k de v i k displaystyle v i k ye funkciyeyu znachennya v i k sup t gt 0 t 0 t 1 b t R Z t b t k Z 0 i displaystyle v i k sup tau gt 0 left langle sum t 0 tau 1 beta t R Z t beta t k right rangle Z 0 i z timi samimi poznachennyami sho j vishe Spravedlivo nastupne n i 1 b w i displaystyle nu i 1 beta w i Formulyuvannya perezapusku v stani Koli Z displaystyle Z cdot ce lancyug Markova z vinagorodami todi interpretaciya en ta Vejnota 1987 pov yazuye z kozhnim stanom lancyuga diyu perezapusku z dovilnogo stanu i displaystyle i sho buduye markovskij proces prijnyattya rishen M i displaystyle M i Indeks Gittinsa cogo stanu i displaystyle i ce najbilsha zagalna vinagoroda yaku mozhna otrimati na processi M i displaystyle M i yaksho zavzhdi mozhna vibrati mizh prodovzhennyam ta perezapuskom z stanu i displaystyle i h i sup p t 0 t 1 b t R Z p t Z 0 i displaystyle h i sup pi left langle sum t 0 tau 1 beta t R Z pi t right rangle Z 0 i de p displaystyle pi strategiya M i displaystyle M i Spravedlivo nastupne h i w i displaystyle h i w i Uzagalnenij indeks Yaksho jmovirnist ne pripinennya b i displaystyle beta i zalezhit vid stanu i displaystyle i to uzagalnennya sho vvedene Soninim 2008 viznachaye indeks Gittinsa a i displaystyle alpha i yak maksimalnu znizhennu zagalnu vinagorodu za shans pripinennya a i sup t gt 0 R t i Q t i displaystyle alpha i sup tau gt 0 frac R tau i Q tau i de R t i t 0 t 1 R Z t Z 0 i displaystyle R tau i left langle sum t 0 tau 1 R Z t right rangle Z 0 i Q t i 1 t 0 t 1 b Z t Z 0 i displaystyle Q tau i left langle 1 prod t 0 tau 1 beta Z t right rangle Z 0 i dd Yaksho b t displaystyle beta t zaminiti na j 0 t 1 b Z j displaystyle prod j 0 t 1 beta Z j u viznachennyah n i displaystyle nu i w i displaystyle w i ta h i displaystyle h i todi spravedlivo nastupne a i h i w i displaystyle alpha i h i w i a i k n i k displaystyle alpha i neq k nu i forall k Ce sposterezhennya privodit Sonina do visnovku sho ne n i displaystyle nu i a a i displaystyle alpha i ye spravzhnim znachennyam indeksu Gittinsa Teoriya masovogo obslugovuvannyaU teoriyi masovogo obslugovuvannya indeks Gittinsa vikoristovuyetsya dlya viznachennya optimalnogo planuvannya zavdan napriklad u cherzi M G 1 Serednij chas vikonannya zavdan za grafikom indeksu Gittinsa mozhna viznachiti za dopomogoyu pidhodu SOAP Varto zaznachiti sho dinamika chergi ye Markovoyu vlastivistyu a vipadkovist vinikaye cherez procesi pributtya ta obslugovuvannya Ce vidriznyayetsya u bilshosti robit navchalnoyi literaturi de vipadkovist yavno vrahovuyetsya cherez parametr Problemi z racionalnimi vinagorodamiPri tradicijnih indeksah Gittinsa vstanovlyuyetsya strategiya dlya optimizaciyi nakopichennya vinagorodi ale u zagalnij zadachi chasto jdetsya pro optimizaciyu spivvidnoshennya nakopichenih vinagorod Napriklad ce stosuyetsya sistem sho maksimizuyut propusknu zdatnist shlyahom dodavannya danih protyagom chasu abo minimizuyut spozhivannya energiyi shlyahom dodavannya energiyi protyagom chasu Cej klas zadach vidriznyayetsya vid optimizaciyi napivmarkivskogo procesu vinagorod yaka mozhe obirati stani z neproporcijnim chasom perebuvannya lishe dlya nakopichennya vishoyi vinagorodi Z inshogo boku vin vidpovidaye klasu zadach optimizaciyi drobovo linijnih markivskih vinagorod Odnak negativnim aspektom takoyi optimizaciyi spivvidnoshennya ye te sho pri velikomu spivvidnoshenni u deyakomu stani optimizaciya mozhe obirati stani yaki prizvodyat do nizkogo spivvidnoshennya cherez veliku jmovirnist zavershennya procesu Ce zumovleno tim sho jmovirno proces zavershitsya persh nizh spivvidnoshennya znachno zmenshitsya Formulyuvannya zadachi zapobigannya takogo rannogo zavershennya polyagaye u viznachenni optimizaciyi yak maksimizaciyi majbutnogo spivvidnoshennya yake vrahovuye kozhnij stan Pripuskayetsya sho isnuye indeksaciya dlya ciyeyi problemi yaka mozhe buti obchislena yak prosta variaciya isnuyuchih algoritmiv perezapusku v stani abo algoritmiv vidalennya stanu ta ocinena yak efektivna na praktici PrimitkiCowan Robin July 1991 Tortoises and Hares Choice among technologies of unknown merit The Economic Journal 101 407 801 814 doi 10 2307 2233856 JSTOR 2233856 Gittins J C 1979 Bandit Processes and Dynamic Allocation Indices Journal of the Royal Statistical Society Series B Methodological 41 2 148 177 doi 10 1111 j 2517 6161 1979 tb01068 x JSTOR 2985029 S2CID 17724147 Mitten L 1960 An Analytic Solution to the Least Cost Testing Sequence Problem Journal of Industrial Engineering 11 1 17 Gittins J C Jones D M 1979 A Dynamic Allocation Index for the Discounted Multiarmed Bandit Problem Biometrika 66 3 561 565 doi 10 2307 2335176 JSTOR 2335176 Weitzman Martin L 1979 Optimal Search for the Best Alternative Econometrica 47 3 641 654 doi 10 2307 1910412 JSTOR 1910412 S2CID 32530881 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a hdl access vimagaye hdl dovidka Whittle Peter 1980 Multi armed Bandits and the Gittins Index en 42 2 143 149 Varaiya P Walrand J Buyukkoc C May 1985 Extensions of the multiarmed bandit problem The discounted case IEEE Transactions on Automatic Control 30 5 426 439 doi 10 1109 TAC 1985 1103989 Chen Yih Ren Katehakis Michael N 1986 Linear programming for finite state multi armed bandit problems en 11 1 180 183 doi 10 1287 moor 11 1 180 Kallenberg Lodewijk C M 1986 A Note on M N Katehakis and Y R Chen s Computation of the Gittins Index en 11 1 184 186 doi 10 1287 moor 11 1 184 Katehakis Michael N Veinott Jr Arthur F 1987 The multi armed bandit problem decomposition and computation en 12 2 262 268 doi 10 1287 moor 12 2 262 JSTOR 3689689 S2CID 656323 Sonin I 2008 A generalized Gittins index for a Markov chain and its recursive calculation Statistics and Probability Letters 78 12 1526 1533 doi 10 1016 j spl 2008 01 049 Ni Mora J 2007 A 2 3 n Fast Pivoting Algorithm for the Gittins Index and Optimal Stopping of a Markov Chain INFORMS Journal on Computing 19 4 596 606 doi 10 1287 ijoc 1060 0206 S2CID 122785013 Cowan Wesley Katehakis Michael N January 2015 Multi armed bandits under general depreciation and commitment Probability in the Engineering and Informational Sciences 29 1 51 76 doi 10 1017 S0269964814000217 Scully Ziv and Harchol Balter Mor and Scheller Wolf Alan 2018 SOAP One Clean Analysis of All Age Based Scheduling Policies Proceedings of the ACM on Measurement and Analysis of Computing Systems ACM 2 1 16 doi 10 1145 3179419 S2CID 216145213 Di Gregorio Lorenzo and Frascolla Valerio 1 zhovtnya 2019 Handover Optimality in Heterogeneous Networks 5G World Forum arXiv 1908 09991v2 Spisok literaturiScully Ziv and Harchol Balter Mor and Scheller Wolf Alan 2018 SOAP One Clean Analysis of All Age Based Scheduling Policies Proceedings of the ACM on Measurement and Analysis of Computing Systems ACM 2 16 doi 10 1145 3179419 en and Fristedt Bert 1985 Bandit problems Sequential allocation of experiments Monographs on Statistics and Applied Probability London Chapman amp Hall ISBN 978 0 412 24810 8 en 1989 Multi armed bandit allocation indices Wiley Interscience Series in Systems and Optimization Chichester John Wiley amp Sons Ltd ISBN 978 0 471 92059 5 en November 1992 On the Gittins index for multiarmed bandits The Annals of Applied Probability 2 1024 1033 doi 10 1214 aoap 1177005588 JSTOR 2959678 en Veinott Jr Arthur F 1987 The multi armed bandit problem decomposition and computation en 12 2 262 268 doi 10 1287 moor 12 2 262 JSTOR 3689689 Cowan W and en 2014 Multi armed Bandits under General Depreciation and Commitment Probability in the Engineering and Informational Sciences 29 51 76 doi 10 1017 S0269964814000217 Posilannya 1 Matlab Octave implementation of the index computation algorithms Cowan Robin 1991 Tortoises and Hares Choice Among Technologies of Unknown Merit The Economic Journal 101 407 801 814 doi 10 2307 2233856 JSTOR 2233856