Баєсова оптимізація — це стратегія оптимізації гіперпараметрів для довільних функцій. Використовується у випадку, якщо обчислення функції з заданими гіперпараметрами є дуже ресурсоємкою операцією.
Задача
Нехай існує функція , де , де — невелике число (зазвичай менше 20). В такому випадку можна інтерпретувати як набір гіперпараметрів деякої моделі, яку виражає функція . Метод не накладає обмежень на функцію, за якою обчислюється результат, тому часто кажуть про модель чорного ящика. Множина можливих значень є обмеженою, найчастіше або гіперпрямокутником (кожен з параметрів має верхню і нижню межу), або гіперсімплексом (сума параметрів менша за деяке число).
Задача полягає у тому, щоб знайти такий набір гіперпараметрів, при якому результат буде максимальний. При цьому, обчислення функції може займати багато часу (хвилини або години), або є фінансово обтяжливим (вимагає придбання лабораторних інгредієнтів або плати за хмарні обчислення), або бути обмеженим через якісь інші причини, тому необхідно провести його якомога меншу кількість разів. Також, важливо підкреслити що метою є пошук глобального, а не локального мінімуму.
При обчисленні ми отримуємо лише самі значення функції, але не значення її похідної, тому неможливо використовувати такі методи як алгоритм Ньютона.
У базовому варіанті алгоритму вважається, що вимірюються без шуму, втім, існують варіанти Баєсової оптимізації, які можуть бути використані і коли ця умова не виконується.
Базовий алгоритм
Алгоритм баєсівської оптимізації складається з наступних етапів:
- Ініціалізація
- Обирається апріорний розподіл для моделі
- Значення обраховується для деякої кількості точок, зазвичай обраних випадково з усієї області визначення
- Використовуючи наявні виміряні значення функції, уточнюємо апріорний розподіл ймовірностей, отримуючи апостеріорний розподіл (регресія гаусівського процесу)
- Знаходимо максимум функції вибору на всій області визначення, обчислюємо у цій точці
- Постанні два кроки повторюємо задану заздалегідь кількість разів, або ж доки максимум функції вибору не буде меншим за деякий встановлений поріг
Загалом, баєсівська оптимізація побудована на дилемі "розвідка або розробка" (англ. exploring vs. exploiting) — функція вибору побудована таким чином, що її значення збільшується при віддаленні від відомих точок, а також при наближенні до відомого максимуму (нижче ми опишемо цей процес більш докладно). Тобто, максимальне значення зазвичай знаходиться або десь посеред великої ділянки що не містить спостережень, або ж неподалік від максимального відомого значення функції.
Регресія гаусівського процесу
Нехай є гауссівський процес тобто, такий випадковий процес , що для будь-якого набору значень випадковий вектор має багатовимірний нормальний розподіл (зверніть увагу, це не означає, що функція задана лише в дискретних точках — вона задана по всьому простору, і будь які довільно вибрані точки будуть пов'язані таким чином). Тоді конкретна реалізація цього процесу буде деякою функцією .
Різним процесам відповідають різні розподіли функцій. Загалом, Гаусівський процес описується двома параметрами: функцією середнього, яка повертає вектор середніх значень для заданого набору точок (кожна окрема точка є вектором у просторі )
і функцією, що породжує матрицю коваріації для цих точок
Тоді, якщо нам відома деяка кількість значень функції , можна використати цю інформацію для того щоб уточнити апріорний розподіл наступним чином:
Розподіл, заданий цими параметрами, визначає ймовірності значень невідомого, -го значення функції по всій області визначення.
Функція середнього
Апріорна функція середнього для задач баєсівської оптимізації обирається достатньо простою. У найпопулярнішому випадку константи, її значення може обиратися рівним нулю, або середньому значень в усіх точках (але не обмежено цими варіантами). Іноді, якщо є причини вважати, що значення прямо чи обернено пропорційне якомусь з параметрів, можуть використовуватися поліноми невисокого ступеню. Також, можуть застосовуватися більш складні методи визначення — функція середнього може сама будуватися на за допомогою непараметричних моделей (РБФ, Random forest, тощо).
Ядерна функція коваріації
Апріорна функція для матриці коваріації обирається серед ядерних функцій. Ядерні функції мають дві важливі якості в контексті задачі регресії гаусівського процесу: вони є симетричними, і породжена ними матриця є позитивно визначеною (обидві умови є обов'язковими для будь-якої матриці коваріації). Ядро визначає коваріацію між будь-якими двома точками, в залежності від відстані між ними (або дисперсію значень у точці, якщо відстань є нульовою). Чим швидше функція ядра спадає з відстанню, тим швидше функція може змінюватися при зміні аргументів. Зазвичай, ядра мають параметри, що визначають швидкість цього спадання.
Популярними варіантами для баєсівської оптимізації
- гаусівське ядро, також відоме як квадратично-експоненціальне ядро (англ. squared-exponential)
- ,
де — відстань між точками. Параметрами ядра є і .
- ядро Матерна (або сімейство ядер, що залежить від )
- ,
де — модифікована функція Бесселя. Параметрами ядра є і . Типові значення для — 3/2, 5/2.
- γ-експоненційне ядро
Функція має параметри і , при чому параметр може набувати значень від 0 до 2. При переходить в квадратично-експоненційне
- Раціонально-квадратичне ядро англ. Rational Quadratic
з параметрами
Також, у всіх цих функціях замість масштабування всього вектора (наприклад, параметр l у гаусівському ядрі), кожна компонента вектора може масштабуватися окремо — у цьому випадку замість одного параметру використовується параметрів, де — розмірність вектора .
Загалом, відомо, що клас функцій, які можна апроксимувати використовуючи прості (і навіть константні) функції середнього і довільні ядра коваріації є досить широким, і як мінімум включає в себе всі ліпшицеві функції.
Визначення гіперпараметрів
Параметри функції ядра і середнього (вектор, що містить всі параметри позначається як ) визначаються виходячи з відомих значень функції. Існує кілька підходів до такого визначення:
- Оцінка максимальної правдоподібності (англ. MLE): для заданого набору точок обчислюється правдоподібність такого результату в залежності від значень гіперпараметрів, , і обирається те значення, для якого правдоподібність максимальна
- Оцінка максимальної апостеріорної ймовірності (англ. MAP): у цьому методі припускається, що самі гіперпараметри мають деякий розподіл . Тоді оцінка максимальної правдоподібності змінюється, і функція, максимум якої ми шукаємо виглядає так:
Фактично, MLE є окремим випадком MAP, якщо ми припускаємо що має рівномірний розподіл. MAP є більш корисною, якщо ми можемо зробити якісь припущення щодо можливих значень гіперпараметрів (наприклад, якісь їх комбінації є дуже малоймовірними). Популярними варіантами для розподілів є рівномірний, нормальний або логнормальний.
- Повністю баєсівська оцінка (англ. fully Bayesian): у цьому методі ми не обираємо єдине значення гіперпараметрів, а обчислюємо апостеріорний розподіл як:
зазвичай, такий інтеграл неможливо взяти, тому обчислюють його наближене значення за допомогою суми
де — деяка кількість наборів гіперпараметрів, що отримана з загального розподілу гіперпараметрів будь-яким методом МКМЛ.
Функція оцінки
Загалом, функція оцінки (або функція вибору, англ. Acquisition Functions) дозволяє зрозуміти потенційну вигоду від випробовування в даній точці. Найбільш типовою функцією оцінки є очікуване покращення (англ. Expected Improvement):
Де — математичне очікування, — максимальне значення функції з вже відомих, а означає, що ми беремо лише позитивні значення (від'ємні замінюються нулем).
Як можна зрозуміти з механіки гаусівського процесу, значення функції у точці , що знаходиться поблизу відомої точки є, ймовірно, близьким до значення цієї точки, а при віддаленні від них, розкид можливий значень росте. Таким чином, у точках близьких до максимуму ймовірність того, що нове значення буде вищим ніж максимум є порівняно високою, але значення цього перевищення є невеликим (велике середнє, мала девіація). Тоді як у далеких від максимуму широких проміжках що не містять жодного значення, ймовірність того що значення перевищить максимум є малою, проте саме це перевищення може бути значним (маленьке середнє, велика девіація). При обчисленні нової точки, девіація навколо неї, зазвичай, падає — тому алгоритм змушує весь час переходити від дослідженням незаповнених, віддалених від відомих точок зон, до уточнення значень навколо актуального максимуму. Це коливання називають дилемою exploring vs. exploiting.
Функція очікуваного покращення може бути виражена у замкненому вигляді, й легко обчислюється, на відміну від функції .
Значення при якому очікуване покращення досягає максимуму є значенням, у якому береться наступна точка.
Іншими варіантами функції оцінки є:
- Градієнт знання (англ. Knowledge Gradient)
- Ентропійний пошук (англ. Entropy Search)
- Ентропійний пошук з передбаченням (англ. Predictive Entropy Search)
Ці функції є більш популярними для екзотичних варіантів баєсівської оптимізації.
Для ілюстрації часто використовується графік апостеріорного середнього, і значення деякого довірчого інтервалу (наприклад, 95%). Максимальне значення довірчого інтервалу (англ. Upper Confidence Bound) може використовуватися і як функція оцінки.
Екзотичні варіанти алгоритму
Екзотичною баєсівською оптимізацією називають алгоритми, що вирішують задачу, умови якої відрізняються від базової у деяких важливих деталях.
Найважливішим з них є зашумлені оцінки — якщо значення функції не є точним, а саме вимірюється з деяким шумом. У такому випадку, до матриці коваріації додаються діагональні члени, що не залежать від відстані, і позначають власне похибку вимірювання. Описані вище функції оцінки можуть бути застосовані і в цьому випадку, хоча існують спеціалізовані варіанти цих функцій, що є більш доречними для цієї задачі.
Іншим варіантом є модифікація алгоритму для паралельних обчислень, при якій визначається не одна, а одразу кілька точок для наступного випробування (оскільки значення функції у цих точках можуть бути визначені незалежно для пришвидшення процесу). Описані вище функції також можуть бути природно розширенні для такої задачі.
Історія
Вперше подібний алгоритм був запропоновий у 1964 році [en]. У методі Кушнера, втім, функція апроксимувалася випадковим блуканням (математичним аналогом броунівського руху) зі змінним середнім і дисперсією. Метод був покращений А.Г. Жилінскасом і Йонасом Моцкусом в 1970х, у припущенні, що на кожному етапі процесу шукається лише одна точка, якою випробовують наступною (one-stage Bayesian method), проте вони також вважали процес, що описує функцію, вінерівським. У 1975 Моцкус запропонував використовувати максимум функції очікуваного покращення (EI) як наступну точку(пошук максимуму цієї функції був досліджений ще у 1961 році Чарльзом Кларком, при роботі над зовсім іншою задачею). Загалом, метод важко узагальнювався на більш ніж одновимірний випадок (тобто, випадок коли функція залежала від більш ніж одного аргументу). Також, з 1960х років у геології з'явився кригінг подібний метод, що використовувався для побудови карт.
Значний поштовх у розвитку, метод отримав у 1998 році, після роботи Дональда Джонса, [en] і Вільяма Велча, в якій вони описали метод, більш подібний на сучасний — де брався до уваги зв'язок між близькими точками (проте, автори використовували матрицю кореляції замість матриці коваріації). У їх роботі була використана функція, подібна до γ-експоненційного ядра. Описаний ними метод отримав назву Efficient Global Optimization (EGO).
Примітки
- A Tutorial on Bayesian Optimization(англ.)
- What do you Mean? The Role of the Mean Function in Bayesian Optimisation(англ.)
- Gaussian Processes and Bayesian Optimization(англ.)
- Advice on Covariance functions(англ.)
- Rasmussen,Williams, 2006, с. 83.
- Rasmussen,Williams, 2006, с. 85.
- Rasmussen,Williams, 2006, с. 86.
- Kernel (Covariance) Function Options(англ.)
- Uniform Error Bounds for Gaussian Process Regression with Application to Safe Control(англ.)
- https://people.eecs.berkeley.edu/~kandasamy/talks/electrochem-bo-slides.pdf(англ.)
- A New Method of Locating the Maximum Point of an Arbitrary Multipeak Curve in the Presence of Noise(англ.)
- On Bayesian methods for seeking the extremum(англ.)
- The Greatest of a Finite Set of Random Variables(англ.)
- Efficient Global Optimization of Expensive Black-Box Functions(англ.)
Література
- Rasmussen C.E., Williams C.K.I. Gaussian Processes for Machine Learning. — Cambridge, Massachusetts : MIT Press, 2006. — 248 с. — .
- R. Garnett. Bayesian Optimization. — Cambridge University Press, 2023. — 358 с. — .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Bayesova optimizaciya ce strategiya optimizaciyi giperparametriv dlya dovilnih funkcij Vikoristovuyetsya u vipadku yaksho obchislennya funkciyi z zadanimi giperparametrami ye duzhe resursoyemkoyu operaciyeyu Kilka krokiv bayesovoyi optimizaciyi vgori sama funkciya maksimum yakoyi shukayetsya tri grafika nizhche ochikuvane pokrashennya verhnya granicya dovirchogo intervalu jmovirnist pokrashennya ZadachaNehaj isnuye funkciya f x R displaystyle f x in mathbb R de x Rp displaystyle x in mathbb R p de p displaystyle p nevelike chislo zazvichaj menshe 20 V takomu vipadku x displaystyle x mozhna interpretuvati yak nabir giperparametriv deyakoyi modeli yaku virazhaye funkciya f displaystyle f Metod ne nakladaye obmezhen na funkciyu za yakoyu obchislyuyetsya rezultat tomu chasto kazhut pro model chornogo yashika Mnozhina mozhlivih znachen x displaystyle x ye obmezhenoyu najchastishe abo giperpryamokutnikom kozhen z parametriv maye verhnyu i nizhnyu mezhu abo gipersimpleksom suma parametriv mensha za deyake chislo Zadacha polyagaye u tomu shob znajti takij nabir giperparametriv pri yakomu rezultat bude maksimalnij Pri comu obchislennya funkciyi f x displaystyle f x mozhe zajmati bagato chasu hvilini abo godini abo ye finansovo obtyazhlivim vimagaye pridbannya laboratornih ingrediyentiv abo plati za hmarni obchislennya abo buti obmezhenim cherez yakis inshi prichini tomu neobhidno provesti jogo yakomoga menshu kilkist raziv Takozh vazhlivo pidkresliti sho metoyu ye poshuk globalnogo a ne lokalnogo minimumu Pri obchislenni f x displaystyle f x mi otrimuyemo lishe sami znachennya funkciyi ale ne znachennya yiyi pohidnoyi tomu nemozhlivo vikoristovuvati taki metodi yak algoritm Nyutona U bazovomu varianti algoritmu vvazhayetsya sho f x displaystyle f x vimiryuyutsya bez shumu vtim isnuyut varianti Bayesovoyi optimizaciyi yaki mozhut buti vikoristani i koli cya umova ne vikonuyetsya Bazovij algoritmAlgoritm bayesivskoyi optimizaciyi skladayetsya z nastupnih etapiv Inicializaciya Obirayetsya apriornij rozpodil dlya modeli Znachennya f x displaystyle f x obrahovuyetsya dlya deyakoyi kilkosti tochok zazvichaj obranih vipadkovo z usiyeyi oblasti viznachennya Vikoristovuyuchi nayavni vimiryani znachennya funkciyi utochnyuyemo apriornij rozpodil jmovirnostej otrimuyuchi aposteriornij rozpodil regresiya gausivskogo procesu Znahodimo maksimum funkciyi viboru na vsij oblasti viznachennya obchislyuyemo f x displaystyle f x u cij tochci Postanni dva kroki povtoryuyemo zadanu zazdalegid kilkist raziv abo zh doki maksimum funkciyi viboru ne bude menshim za deyakij vstanovlenij porig Zagalom bayesivska optimizaciya pobudovana na dilemi rozvidka abo rozrobka angl exploring vs exploiting funkciya viboru pobudovana takim chinom sho yiyi znachennya zbilshuyetsya pri viddalenni vid vidomih tochok a takozh pri nablizhenni do vidomogo maksimumu nizhche mi opishemo cej proces bilsh dokladno Tobto maksimalne znachennya zazvichaj znahoditsya abo des posered velikoyi dilyanki sho ne mistit sposterezhen abo zh nepodalik vid maksimalnogo vidomogo znachennya funkciyi Regresiya gausivskogo procesu Kilka trayektorij Gaussivskogo procesu vibranih z apriornogo rozpodiluDekilka aposteriornih trayektorij sho prohodyat cherez dvi vidomi tochki pochatok koordinat i 1 1 Rizni parametri gausivskogo yadra porodzhuyut trayektoriyi riznoyi zvivistosti Funkciya serednogo v usih vipadkah ye nulovoyu Nehaj ye gaussivskij proces tobto takij vipadkovij proces Xt t T displaystyle X t t in T sho dlya bud yakogo naboru znachen t1 t2 t3 tk displaystyle t 1 t 2 t 3 t k vipadkovij vektor Xt1 Xtn displaystyle X t 1 ldots X t n top maye bagatovimirnij normalnij rozpodil zvernit uvagu ce ne oznachaye sho funkciya zadana lishe v diskretnih tochkah vona zadana po vsomu prostoru i bud yaki dovilno vibrani tochki budut pov yazani takim chinom Todi konkretna realizaciya cogo procesu bude deyakoyu funkciyeyu f x displaystyle f x Riznim procesam vidpovidayut rizni rozpodili funkcij Zagalom Gausivskij proces opisuyetsya dvoma parametrami funkciyeyu serednogo yaka povertaye vektor serednih znachen dlya zadanogo naboru tochok kozhna okrema tochka xi displaystyle x i ye vektorom u prostori Rp displaystyle mathbb R p m0 x1 n m0 x1 m0 x2 m0 xn displaystyle mu 0 x 1 n mu 0 x 1 mu 0 x 2 mu 0 x n i funkciyeyu sho porodzhuye matricyu kovariaciyi dlya cih tochok S0 x1 n x1 n S0 x1 x1 S0 x1 xn S0 xn x1 S0 xn xn displaystyle Sigma 0 x 1 n x 1 n Sigma 0 x 1 x 1 Sigma 0 x 1 x n Sigma 0 x n x 1 Sigma 0 x n x n Todi yaksho nam vidoma deyaka kilkist znachen funkciyi f x1 n displaystyle f x 1 n mozhna vikoristati cyu informaciyu dlya togo shob utochniti apriornij rozpodil nastupnim chinom mn x S0 x x1 n S0 x1 n x1 n 1 f x1 n m0 x1 n m0 x displaystyle mu n x Sigma 0 x x 1 n Sigma 0 x 1 n x 1 n 1 f x 1 n mu 0 x 1 n mu 0 x sn2 x S0 x x S0 x x1 n S0 x1 n x1 n 1S0 x1 n x displaystyle sigma n 2 x Sigma 0 x x Sigma 0 x x 1 n Sigma 0 x 1 n x 1 n 1 Sigma 0 x 1 n x Rozpodil zadanij cimi parametrami viznachaye jmovirnosti znachen nevidomogo n 1 displaystyle n 1 go znachennya funkciyi po vsij oblasti viznachennya Funkciya serednogo Apriorna funkciya serednogo dlya zadach bayesivskoyi optimizaciyi obirayetsya dostatno prostoyu U najpopulyarnishomu vipadku konstanti yiyi znachennya mozhe obiratisya rivnim nulyu abo serednomu znachen v usih tochkah ale ne obmezheno cimi variantami Inodi yaksho ye prichini vvazhati sho znachennya f x displaystyle f x pryamo chi oberneno proporcijne yakomus z parametriv mozhut vikoristovuvatisya polinomi nevisokogo stupenyu Takozh mozhut zastosovuvatisya bilsh skladni metodi viznachennya funkciya serednogo mozhe sama buduvatisya na za dopomogoyu neparametrichnih modelej RBF Random forest tosho Yaderna funkciya kovariaciyi Apriorna funkciya dlya matrici kovariaciyi obirayetsya sered yadernih funkcij Yaderni funkciyi mayut dvi vazhlivi yakosti v konteksti zadachi regresiyi gausivskogo procesu voni ye simetrichnimi i porodzhena nimi matricya ye pozitivno viznachenoyu obidvi umovi ye obov yazkovimi dlya bud yakoyi matrici kovariaciyi Yadro viznachaye kovariaciyu mizh bud yakimi dvoma tochkami v zalezhnosti vid vidstani mizh nimi abo dispersiyu znachen u tochci yaksho vidstan ye nulovoyu Chim shvidshe funkciya yadra spadaye z vidstannyu tim shvidshe funkciya mozhe zminyuvatisya pri zmini argumentiv Zazvichaj yadra mayut parametri sho viznachayut shvidkist cogo spadannya Populyarnimi variantami dlya bayesivskoyi optimizaciyi gausivske yadro takozh vidome yak kvadratichno eksponencialne yadro angl squared exponential K x x se x x 22l2 se r22l2 displaystyle K x x sigma e frac x x 2 2l 2 sigma e frac r 2 2l 2 de r displaystyle r vidstan mizh tochkami Parametrami yadra ye s displaystyle sigma i l displaystyle l yadro Materna abo simejstvo yader sho zalezhit vid n displaystyle nu K r 21 nGn 2nrl nuKn 2nrl displaystyle K r frac 2 1 nu Gamma nu left frac sqrt 2 nu r l right nu K nu left frac sqrt 2 nu r l right de Kn displaystyle K nu modifikovana funkciya Besselya Parametrami yadra ye n displaystyle nu i l displaystyle l Tipovi znachennya dlya n displaystyle nu 3 2 5 2 g eksponencijne yadroK r e rl g displaystyle K r e left frac r l right gamma Funkciya maye parametri g displaystyle gamma i l displaystyle l pri chomu parametr g displaystyle gamma mozhe nabuvati znachen vid 0 do 2 Pri g 2 displaystyle gamma 2 perehodit v kvadratichno eksponencijne Racionalno kvadratichne yadro angl Rational QuadraticK r 1 r22al2 a displaystyle K r left 1 frac r 2 2 alpha l 2 right alpha z parametrami a l gt 0 displaystyle alpha l gt 0 Takozh u vsih cih funkciyah zamist masshtabuvannya vsogo vektora napriklad parametr l u gausivskomu yadri kozhna komponenta vektora x displaystyle x mozhe masshtabuvatisya okremo u comu vipadku zamist odnogo parametru vikoristovuyetsya p displaystyle p parametriv de p displaystyle p rozmirnist vektora x displaystyle x Zagalom vidomo sho klas funkcij yaki mozhna aproksimuvati vikoristovuyuchi prosti i navit konstantni funkciyi serednogo i dovilni yadra kovariaciyi ye dosit shirokim i yak minimum vklyuchaye v sebe vsi lipshicevi funkciyi Viznachennya giperparametriv Parametri funkciyi yadra i serednogo vektor sho mistit vsi parametri poznachayetsya yak h displaystyle eta viznachayutsya vihodyachi z vidomih znachen funkciyi Isnuye kilka pidhodiv do takogo viznachennya Ocinka maksimalnoyi pravdopodibnosti angl MLE dlya zadanogo naboru tochok obchislyuyetsya pravdopodibnist takogo rezultatu v zalezhnosti vid znachen giperparametriv P f x1 n h displaystyle P f x 1 n eta i obirayetsya te znachennya dlya yakogo pravdopodibnist maksimalnaOcinka maksimalnoyi aposteriornoyi jmovirnosti angl MAP u comu metodi pripuskayetsya sho sami giperparametri mayut deyakij rozpodil P h displaystyle P eta Todi ocinka maksimalnoyi pravdopodibnosti zminyuyetsya i funkciya maksimum yakoyi mi shukayemo viglyadaye tak P h f x1 n P f x1 n h P h displaystyle P eta f x 1 n P f x 1 n eta P eta Faktichno MLE ye okremim vipadkom MAP yaksho mi pripuskayemo sho h displaystyle eta maye rivnomirnij rozpodil MAP ye bilsh korisnoyu yaksho mi mozhemo zrobiti yakis pripushennya shodo mozhlivih znachen giperparametriv napriklad yakis yih kombinaciyi ye duzhe malojmovirnimi Populyarnimi variantami dlya rozpodiliv ye rivnomirnij normalnij abo lognormalnij Povnistyu bayesivska ocinka angl fully Bayesian u comu metodi mi ne obirayemo yedine znachennya giperparametriv a obchislyuyemo aposteriornij rozpodil yak P f x y x1 n P f x y f x1 n h P h f x1 n dh displaystyle P f x y x 1 n int P f x y f x1 n eta P eta f x1 n d eta zazvichaj takij integral nemozhlivo vzyati tomu obchislyuyut jogo nablizhene znachennya za dopomogoyu sumi P f x y x1 n SJP f x y f x1 n h h J displaystyle P f x y x 1 n Sigma J P f x y f x1 n eta hat eta J de h J displaystyle hat eta J deyaka kilkist naboriv giperparametriv sho otrimana z zagalnogo rozpodilu giperparametriv bud yakim metodom MKML Funkciya ocinki Zagalom funkciya ocinki abo funkciya viboru angl Acquisition Functions dozvolyaye zrozumiti potencijnu vigodu vid viprobovuvannya v danij tochci Najbilsh tipovoyu funkciyeyu ocinki ye ochikuvane pokrashennya angl Expected Improvement EI x E f x fn displaystyle EI x mathbb E f x f n De E displaystyle mathbb E matematichne ochikuvannya fn displaystyle f n maksimalne znachennya funkciyi z vzhe vidomih a displaystyle oznachaye sho mi beremo lishe pozitivni znachennya vid yemni zaminyuyutsya nulem Yak mozhna zrozumiti z mehaniki gausivskogo procesu znachennya funkciyi f x displaystyle f x u tochci xn displaystyle x n sho znahoditsya poblizu vidomoyi tochki ye jmovirno blizkim do znachennya ciyeyi tochki a pri viddalenni vid nih rozkid mozhlivij znachen roste Takim chinom u tochkah blizkih do maksimumu jmovirnist togo sho nove znachennya bude vishim nizh maksimum ye porivnyano visokoyu ale znachennya cogo perevishennya ye nevelikim velike serednye mala deviaciya Todi yak u dalekih vid maksimumu shirokih promizhkah sho ne mistyat zhodnogo znachennya jmovirnist togo sho znachennya perevishit maksimum ye maloyu prote same ce perevishennya mozhe buti znachnim malenke serednye velika deviaciya Pri obchislenni novoyi tochki deviaciya navkolo neyi zazvichaj padaye tomu algoritm zmushuye ves chas perehoditi vid doslidzhennyam nezapovnenih viddalenih vid vidomih tochok zon do utochnennya znachen navkolo aktualnogo maksimumu Ce kolivannya nazivayut dilemoyu exploring vs exploiting Funkciya ochikuvanogo pokrashennya mozhe buti virazhena u zamknenomu viglyadi j legko obchislyuyetsya na vidminu vid funkciyi f x displaystyle f x Znachennya x displaystyle x pri yakomu ochikuvane pokrashennya dosyagaye maksimumu ye znachennyam u yakomu beretsya nastupna tochka Inshimi variantami funkciyi ocinki ye Gradiyent znannya angl Knowledge Gradient Entropijnij poshuk angl Entropy Search Entropijnij poshuk z peredbachennyam angl Predictive Entropy Search Ci funkciyi ye bilsh populyarnimi dlya ekzotichnih variantiv bayesivskoyi optimizaciyi Dlya ilyustraciyi chasto vikoristovuyetsya grafik aposteriornogo serednogo i znachennya deyakogo dovirchogo intervalu napriklad 95 Maksimalne znachennya dovirchogo intervalu angl Upper Confidence Bound mozhe vikoristovuvatisya i yak funkciya ocinki Ekzotichni varianti algoritmuU vipadku nayavnosti shumu funkciya serednogo ne bude obov yazkovo prohoditi cherez vsi nayavni tochki Ekzotichnoyu bayesivskoyu optimizaciyeyu nazivayut algoritmi sho virishuyut zadachu umovi yakoyi vidriznyayutsya vid bazovoyi u deyakih vazhlivih detalyah Najvazhlivishim z nih ye zashumleni ocinki yaksho znachennya funkciyi f x displaystyle f x ne ye tochnim a same vimiryuyetsya z deyakim shumom U takomu vipadku do matrici kovariaciyi dodayutsya diagonalni chleni sho ne zalezhat vid vidstani i poznachayut vlasne pohibku vimiryuvannya Opisani vishe funkciyi ocinki mozhut buti zastosovani i v comu vipadku hocha isnuyut specializovani varianti cih funkcij sho ye bilsh dorechnimi dlya ciyeyi zadachi Inshim variantom ye modifikaciya algoritmu dlya paralelnih obchislen pri yakij viznachayetsya ne odna a odrazu kilka tochok dlya nastupnogo viprobuvannya oskilki znachennya funkciyi u cih tochkah mozhut buti viznacheni nezalezhno dlya prishvidshennya procesu Opisani vishe funkciyi takozh mozhut buti prirodno rozshirenni dlya takoyi zadachi IstoriyaVpershe podibnij algoritm buv zaproponovij u 1964 roci en U metodi Kushnera vtim funkciya aproksimuvalasya vipadkovim blukannyam matematichnim analogom brounivskogo ruhu zi zminnim serednim i dispersiyeyu Metod buv pokrashenij A G Zhilinskasom i Jonasom Mockusom v 1970h u pripushenni sho na kozhnomu etapi procesu shukayetsya lishe odna tochka yakoyu viprobovuyut nastupnoyu one stage Bayesian method prote voni takozh vvazhali proces sho opisuye funkciyu vinerivskim U 1975 Mockus zaproponuvav vikoristovuvati maksimum funkciyi ochikuvanogo pokrashennya EI yak nastupnu tochku poshuk maksimumu ciyeyi funkciyi buv doslidzhenij she u 1961 roci Charlzom Klarkom pri roboti nad zovsim inshoyu zadacheyu Zagalom metod vazhko uzagalnyuvavsya na bilsh nizh odnovimirnij vipadok tobto vipadok koli funkciya zalezhala vid bilsh nizh odnogo argumentu Takozh z 1960h rokiv u geologiyi z yavivsya kriging podibnij metod sho vikoristovuvavsya dlya pobudovi kart Znachnij poshtovh u rozvitku metod otrimav u 1998 roci pislya roboti Donalda Dzhonsa en i Vilyama Velcha v yakij voni opisali metod bilsh podibnij na suchasnij de bravsya do uvagi zv yazok mizh blizkimi tochkami prote avtori vikoristovuvali matricyu korelyaciyi zamist matrici kovariaciyi U yih roboti bula vikoristana funkciya podibna do g eksponencijnogo yadra Opisanij nimi metod otrimav nazvu Efficient Global Optimization EGO PrimitkiA Tutorial on Bayesian Optimization angl What do you Mean The Role of the Mean Function in Bayesian Optimisation angl Gaussian Processes and Bayesian Optimization angl Advice on Covariance functions angl Rasmussen Williams 2006 s 83 Rasmussen Williams 2006 s 85 Rasmussen Williams 2006 s 86 Kernel Covariance Function Options angl Uniform Error Bounds for Gaussian Process Regression with Application to Safe Control angl https people eecs berkeley edu kandasamy talks electrochem bo slides pdf angl A New Method of Locating the Maximum Point of an Arbitrary Multipeak Curve in the Presence of Noise angl On Bayesian methods for seeking the extremum angl The Greatest of a Finite Set of Random Variables angl Efficient Global Optimization of Expensive Black Box Functions angl LiteraturaRasmussen C E Williams C K I Gaussian Processes for Machine Learning Cambridge Massachusetts MIT Press 2006 248 s ISBN 026218253X R Garnett Bayesian Optimization Cambridge University Press 2023 358 s ISBN 9781108425780