Оптимізація гіперпараметрів — задача машинного навчання по вибору множини оптимальних гіперпараметрів для алгоритму машинного навчання. Гіперпараметр є параметром, значення якого використовується для керування процесом навчання. На відміну від значень інших параметрів (наприклад, вагових коефіцієнтів), які потрібно вивчити.
Одні й ті ж види моделей машинного навчання можуть мати різні обмеження, ваги або потребувати певної швидкості навчання для різних видів даних. Ці параметри називаються гіперпараметрами і їх слід підбирати так, щоб модель могла оптимально вирішити завдання навчання. Для цього знаходиться кортеж гіперпараметрів, який дає оптимальну модель, що оптимізує задану функцію втрат на заданих незалежних даних. Цільова функція бере кортеж гіперпараметрів і повертає пов'язані з ними втрати. Часто використовується перехресне затверджування для оцінки цієї узагальнюючої здатності.
Підходи
Пошук по ґратці
Традиційним методом оптимізації гіперпараметрів є пошук по ґратці (або варіація параметрів), який просто робить повний перебір по заданій вручну підмножині простору гіперпараметрів навчального алгоритму. Пошук по ґратці повинен супроводжуватися деякою мірою продуктивності, зазвичай для порівняння використовують перехресне затверджування на тренувальному наборі, або оцінкою на фіксованому перевірочному наборі (англ. holdout set).
Оскільки простір параметрів алгоритму машинного навчання для деяких параметрів може включати простори з дійсними або необмеженими значеннями, тому можлива ситуація, коли необхідно задати границю і дискретизацію до застосування пошуку по ґратці.
Наприклад, типовий класифікатор з не щільним зазором на основі методу опорних векторів (МОВ) та з ядровою радіально-базисною функцією має принаймні два гіперпараметри, які необхідно налаштувати для високої продуктивності на недоступних даних — константа C регуляризації і гіперпараметр ядра γ. Обидва параметри є неперервними, так що для пошуку по ґратці вибирають скінченну множину «обґрунтованих» значень, скажімо:
Пошук по ґратці потім проганяє МОВ для кожної пари (C, γ) по декартовому добутку цих двох множин і перевіряє продуктивність на кожній парі вибраних параметрів на фіксованому перевірочному наборі (або за допомогою внутрішнього перехресного затверджування на тренувальному наборі і в цьому випадку кілька МОВ проганяють попарно). Нарешті, алгоритм пошуку по ґратці видає як результат найвищий результат, який було досягнуто на процедурі перевірки.
Пошук по ґратці страждає від прокляття розмірності, але часто легко розпаралелюється, оскільки зазвичай гіперпараметричні величини, з якими алгоритм працює, не залежать одна від одного.
Випадковий пошук
Випадковий пошук замінює повний перебір всіх комбінацій на їх випадковий вибір. Це можна легко застосувати до дискретних випадків, наведених вище, але метод можна узагальнити на неперервні та змішані простори. Випадковий пошук може перевершити пошук по ґратці, особливо, якщо лише мала кількість гіперпараметрів впливає на продуктивність алгоритму машинного навчання. У цьому випадку кажуть, що завдання оптимізації має низьку внутрішню розмірність. Випадковий пошук також легко паралелізується і, крім того, можливе використання попередніх даних через вибір розподілу для вибірки випадкових параметрів.
Байєсова оптимізація
Байєсова оптимізація — це метод глобальної оптимізації для невідомої функції (чорного ящика) з шумом. Застосована до гіперпараметричної оптимізації байєсівська оптимізація будує стохастичну модель функції відображення зі значень гіперпараметру в цільову функцію, застосовану на затверджувальному наборі. Шляхом ітеративного застосування перспективної конфігурації гіперпараметрів, заснованої на поточній моделі, а потім її оновлення, байєсівську оптимізація прагне зібрати якомога більше інформації про цю функцію і, зокрема, місце оптимуму. Метод намагається збалансувати дослідження (гіперпараметри, для яких результат найменш достеменно відомо) і використання (гіперпараметри, які, як очікується, найбільш близькі до оптимуму). На практиці байєсівська оптимізація показала кращі результати з меншими обчисленнями в порівнянні з пошуком по ґратці та випадковим пошуком завдяки можливості судження про якість експериментів ще до їх виконання.
Оптимізація на основі градієнтів
Для конкретних алгоритмів навчання можна обчислити градієнт гіперпараметрів і оптимізувати їх за допомогою градієнтного спуску. Перше використання таких технік зосереджувалось на нейронних мережах. Потім ці методи були поширені на інші моделі, такі як метод опорних векторів або логістична регресія.
Інший підхід використання градієнтів гіперпараметрів полягає в диференціюванні кроків алгоритму ітеративної оптимізації за допомогою автоматичного диференціювання.
Еволюційна оптимізація
Еволюційна оптимізація — це методологія для глобальної оптимізації невідомих функцій з шумом. При оптимізації гіперпараметрів еволюційна оптимізація використовує еволюційні алгоритми для пошуку гіперпараметрів для даного алгоритму. Еволюційна оптимізація гіперпараметрів дотримується процесу, навіяного біологічною концепцією еволюції:
- Створюємо початкову популяцію випадкових рішень (тобто генеруємо випадковий кортеж гіперпараметрів, зазвичай 100+)
- Оцінюємо кортежі гіперпараметрів і отримуємо їх функцію допасованості (наприклад, за допомогою 10-кратної точності перехресного затверджування алгоритму машинного навчання з цими гіперпараметрами)
- Ранжируємо кортежі гіперпараметрів по їх відносній придатності
- Замінюємо кортежі гіперпараметрів з гіршою продуктивністю на нові кортежі гіперпараметрів, утворених схрещуванням і [en]
- Повторюємо кроки 2-4, поки не отримаємо задовільну продуктивність алгоритму або поки продуктивність не перестане поліпшуватися
Еволюційна оптимізація використовується для оптимізації гіперпараметрів для статистичних алгоритмівавтоматизованого машинного навчання, для пошуку архітектури глибоких нейронних мереж, а також для формування ваг в глибоких нейронних мережах.
На основі заселення
Навчання на основі заселення (англ. Population Based Training) вивчає як значення гіперпараметрів, так і ваги мережі. Кілька процесів навчання працюють незалежно, використовуючи різні гіперпараметри. Моделі, які погано працюють ітеративно замінюються моделями, які використовують модифіковані значення гіперпараметрів кращого виконавця. Модифікація дозволяє еволюційно змінювати гіперпараметри і виключає необхідність ручного налаштування гіперпараметрів. Процес не робить припущень щодо архітектури моделі, функції втрат чи процедури навчання.
Інше
Відбувається також розвиток методів на основі радіально-базисної функції (РБФ) і спектрального методу.
Програмне забезпечення з відкритим кодом
Пошук по ґратці
- scikit-learn — це пакет на мові Python, який містить пошук по ґратці.
- Talos містить пошук по ґратці для пакета Keras.
- LIBSVM має скрипт для здійснення пошуку по ґратці.
Випадковий пошук
- hyperopt через hyperas і hyperopt-sklearn — це пакети на мові Python, які містять випадковий пошук.
- scikit-learn — пакет на мові Python, що містить .
- Talos містить випадковий пошук з налаштуваннями для Keras.
- H2O AutoML забезпечує автоматичну підготовку даних, налаштування гіперпараметрів випадковим пошуком і багаторівневі збірки в розподіленій платформі машинного навчання.
Байєсова оптимізація
- Auto-sklearn — шар для байєсівської оптимізації поверх scikit-learn.
- Ax експериментальна платформа на Python, яка підтримує Байєсову оптимізацію як дослідницьку стратегію.
- Auto-WEKA — шар для байєсівської оптимізації поверх WEKA.
- Bayesopt — ефективна імплементація байєсівської оптимізації на C/C++ з підтримкою Python, Matlab і Octave.
- BOCS — пакет Matlab, який використовує [en] для мінімізації невідомої функції при дискретних вхідних даних. Містить також імплементацію для Python 3.
- HpBandSter — пакет на Python, який комбінує Байєсову оптимізацію зі стохастичними методами однорукого бандита.
- mlrMBO з mlr — це пакет на мові R для байєсівської оптимізації або для оптимізації на основі моделі невідомої функції (чорний ящик).
- MOE — це бібліотека для Python, і системи паралельних обчислень CUDA, імплементує Байєсова глобальну оптимізацію, використовуючи гаусові процеси.
- scikit-optimize — пакет на Python або послідовна модель оптимізації з інтерфейсом scipy.optimize.
- SMAC — бібліотека на мовах Python/Java, імплементує Байєсову оптимізацію.
- Spearmint — це пакет для байєсівської оптимізації алгоритмів машинного навчання.
- tuneRanger — це пакет на мові R для налаштування випадкових лісів з використанням оптимізації на базі моделі.
Засновані на градієнті
- hypergrad — це пакет на мові Python для диференціювання по гіперпараметрам.
Еволюційні методи
- devol — це пакет на мові Python, який здійснює пошук архітектури глибокої нейронної мережі за допомогою генетичного програмування.
- deap — гнучкий фреймворк на Python для загальних еволюційних обчислень, він об'єднаний з пакетами розпаралелювання, такими як scoop і pyspark та іншими Python фреймворками, на зразок scikit-learn через sklearn-deap.
- nevergrad — пакет на мові Python, який включає методи контролю популяції та оптимізацію рою.
- TPOT — пакет на мові Python, який автоматично створює і оптимізує весь процес машинного навчання за допомогою генетичного програмування.
Інше
- dlib — пакет на C++ з Python API, який має оптимізатор без параметрів LIPO та оптимізатор [en], які працюють разом.
- Harmonica — пакет на Python для спектральної оптимізації гіперпараметрів.
- hyperopt через hyperas і hyperopt-sklearn — це пакети Python, які включають заснований на дереві парзеновскіх оцінок алгоритм оптимізації розподілених гіперпараметрів.
- nevergrad — пакет на Python для оптимізації без градієнтів з використанням таких методів, як диференційна еволюція, послідовне квадратичне програмування, fastGA, адаптація коваріаційної матриці, методи популяційного контролю і оптимізація рою частинок.
- nni — пакет на Python, який включає налаштування гіперпараметрів для нейронних мереж в локальних і розподілених середовищах. Серед його методів TPE, випадкові, відпалу, еволюційні, SMAC, пакетні, ґратки і гіпербенд.
- pycma — це імплементація на мові Python алгоритму адаптації коваріаційної матриці (англ. Covariance Matrix Adaptation Evolution Strategy).
- rbfopt — пакет на мові Python, що використовує модель радіально-базисної функції.
- SUMO-Toolbox — набір інструментів MATLAB для [en], що підтримує широкий набір гіперпараметрів оптимізаційних алгоритмів для багатьох типів моделей.
Комерційні сервіси
- Amazon Sagemaker використовує Гаусові процеси для налаштування гіперпараметрів.
- BigML OptiML підтримує змішані області пошуку.
- Google HyperTune підтримує змішані області пошуку.
- Indie Solver підтримує багатокритеріальну, різнотипну та оптимізацію з обмеженнями.
- Mind Foundry OPTaaS підтримує змішані області пошуку, багатокритеріальну і паралельну оптимізацію, оптимізацію з обмеженнями і сурогатні моделі.
- SigOpt підтримує змішані області пошуку, підтримує багатокритеріальну, різнотипну та оптимізацію з обмеженнями і паралельну оптимізацію.
Див. також
Примітки
- Claesen, Marc; Bart De Moor (2015). Hyperparameter Search in Machine Learning. arXiv:1502.02127 [cs.LG].
- Bergstra, James; Bengio, Yoshua (2012). Random Search for Hyper-Parameter Optimization (PDF). Journal of Machine Learning Research. 13: 281—305.
- Chin-Wei Hsu, Chih-Chung Chang and Chih-Jen Lin (2010). A practical guide to support vector classification. Technical Report, National Taiwan University.
- Chicco D (December 2017). Ten quick tips for machine learning in computational biology. BioData Mining. 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Ziyu, Wang; Frank, Hutter; Masrour, Zoghi; David, Matheson; Nando, de Feitas (2016). Bayesian Optimization in a Billion Dimensions via Random Embeddings. Journal of Artificial Intelligence Research (англ.). 55: 361—387. doi:10.1613/jair.4806.
- Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin (2011), Sequential model-based optimization for general algorithm configuration (PDF), Learning and Intelligent Optimization, Lecture Notes in Computer Science, 6683: 507—523, CiteSeerX 10.1.1.307.8813, doi:10.1007/978-3-642-25566-3_40, ISBN
- Bergstra, James; Bardenet, Remi; Bengio, Yoshua; Kegl, Balazs (2011), Algorithms for hyper-parameter optimization (PDF), Advances in Neural Information Processing Systems
- Snoek, Jasper; Larochelle, Hugo; Adams, Ryan (2012). Practical Bayesian Optimization of Machine Learning Algorithms (PDF). Advances in Neural Information Processing Systems. arXiv:1206.2944. Bibcode:2012arXiv1206.2944S.
- Thornton, Chris; Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin (2013). Auto-WEKA: Combined selection and hyperparameter optimization of classification algorithms (PDF). Knowledge Discovery and Data Mining. arXiv:1208.3719. Bibcode:2012arXiv1208.3719T.
- Larsen, Jan; Hansen, Lars Kai; Svarer, Claus; Ohlsson, M (1996). Design and regularization of neural networks: the optimal use of a validation set. Proceedings of the 1996 IEEE Signal Processing Society Workshop.
- Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). Choosing multiple parameters for support vector machines (PDF). Machine Learning. 46: 131—159. doi:10.1023/a:1012450327387.
- Chuong B; Chuan-Sheng Foo; Andrew Y Ng (2008). Efficient multiple hyperparameter learning for log-linear models. Advances in Neural Information Processing Systems 20.
- Domke, Justin (2012). (PDF). Aistats. 22. Архів оригіналу (PDF) за 24 січня 2014. Процитовано 12 липня 2019.
- Maclaurin, Douglas; Duvenaud, David; Adams, Ryan P. (2015). Gradient-based Hyperparameter Optimization through Reversible Learning. arXiv:1502.03492 [stat.ML].
- Miikkulainen R, Liang J, Meyerson E, Rawal A, Fink D, Francon O, Raju B, Shahrzad H, Navruzyan A, Duffy N, Hodjat B (2017). Evolving Deep Neural Networks. arXiv:1703.00548 [cs.NE].
- Jaderberg M, Dalibard V, Osindero S, Czarnecki WM, Donahue J, Razavi A, Vinyals O, Green T, Dunning I, Simonyan K, Fernando C, Kavukcuoglu K (2017). Population Based Training of Neural Networks. arXiv:1711.09846 [cs.LG].
- Such FP, Madhavan V, Conti E, Lehman J, Stanley KO, Clune J (2017). Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning. arXiv:1712.06567 [cs.NE].
- Li, Ang; Spyra, Ola; Perel, Sagi; Dalibard, Valentin; Jaderberg, Max; Gu, Chenjie; Budden, David; Harley, Tim; Gupta, Pramod (5 лютого 2019). A Generalized Framework for Population Based Training. arXiv:1902.01894 [cs.AI].
- Diaz, Gonzalo; Fokoue, Achille; Nannicini, Giacomo; Samulowitz, Horst (2017). An effective algorithm for hyperparameter optimization of neural networks. arXiv:1705.08520 [cs.AI].
- Hazan, Elad; Klivans, Adam; Yuan, Yang (2017). Hyperparameter Optimization: A Spectral Approach. arXiv:1706.00764 [cs.LG].
- Feurer M, Klein A, Eggensperger K, Springenberg J, Blum M, Hutter F (2015). Efficient and Robust Automated Machine Learning. Advances in Neural Information Processing Systems 28 (NIPS 2015): 2962—2970.
- Open-sourcing Ax and BoTorch: New AI tools for adaptive experimentation. 2019.
- Baptista, Ricardo; Poloczek, Matthias (2018). Bayesian Optimization of Combinatorial Structures. arXiv:1806.08838 [stat.ML].
- Falkner, Stefan; Klein, Aaron; Hutter, Frank (2018). BOHB: Robust and Efficient Hyperparameter Optimization at Scale. arXiv:1807.01774 [stat.ML].
- skopt API documentation. scikit-optimize.github.io.
- Hutter F, Hoos HH, Leyton-Brown K. Sequential Model-Based Optimization for General Algorithm Configuration (PDF). Proceedings of the Conference on Learning and Intelligent OptimizatioN (LION 5).
- [QUESTION] How to use to optimize NN hyperparameters · Issue #1 · facebookresearch/nevergrad. GitHub.
- Nevergrad: An open source tool for derivative-free optimization. 20 грудня 2018.
- A toolkit for making real world machine learning and data analysis applications in C++: davisking/dlib. 25 лютого 2019 — через GitHub.
- King, Davis. A Global Optimization Algorithm Worth Using.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Optimizaciya giperparametriv zadacha mashinnogo navchannya po viboru mnozhini optimalnih giperparametriv dlya algoritmu mashinnogo navchannya Giperparametr ye parametrom znachennya yakogo vikoristovuyetsya dlya keruvannya procesom navchannya Na vidminu vid znachen inshih parametriv napriklad vagovih koeficiyentiv yaki potribno vivchiti Odni j ti zh vidi modelej mashinnogo navchannya mozhut mati rizni obmezhennya vagi abo potrebuvati pevnoyi shvidkosti navchannya dlya riznih vidiv danih Ci parametri nazivayutsya giperparametrami i yih slid pidbirati tak shob model mogla optimalno virishiti zavdannya navchannya Dlya cogo znahoditsya kortezh giperparametriv yakij daye optimalnu model sho optimizuye zadanu funkciyu vtrat na zadanih nezalezhnih danih Cilova funkciya bere kortezh giperparametriv i povertaye pov yazani z nimi vtrati Chasto vikoristovuyetsya perehresne zatverdzhuvannya dlya ocinki ciyeyi uzagalnyuyuchoyi zdatnosti PidhodiPoshuk po gratci Tradicijnim metodom optimizaciyi giperparametriv ye poshuk po gratci abo variaciya parametriv yakij prosto robit povnij perebir po zadanij vruchnu pidmnozhini prostoru giperparametriv navchalnogo algoritmu Poshuk po gratci povinen suprovodzhuvatisya deyakoyu miroyu produktivnosti zazvichaj dlya porivnyannya vikoristovuyut perehresne zatverdzhuvannya na trenuvalnomu nabori abo ocinkoyu na fiksovanomu perevirochnomu nabori angl holdout set Oskilki prostir parametriv algoritmu mashinnogo navchannya dlya deyakih parametriv mozhe vklyuchati prostori z dijsnimi abo neobmezhenimi znachennyami tomu mozhliva situaciya koli neobhidno zadati granicyu i diskretizaciyu do zastosuvannya poshuku po gratci Napriklad tipovij klasifikator z ne shilnim zazorom na osnovi metodu opornih vektoriv MOV ta z yadrovoyu radialno bazisnoyu funkciyeyu maye prinajmni dva giperparametri yaki neobhidno nalashtuvati dlya visokoyi produktivnosti na nedostupnih danih konstanta C regulyarizaciyi i giperparametr yadra g Obidva parametri ye neperervnimi tak sho dlya poshuku po gratci vibirayut skinchennu mnozhinu obgruntovanih znachen skazhimo C 10 100 1000 displaystyle C in 10 100 1000 g 0 1 0 2 0 5 1 0 displaystyle gamma in 0 1 0 2 0 5 1 0 Poshuk po gratci potim proganyaye MOV dlya kozhnoyi pari C g po dekartovomu dobutku cih dvoh mnozhin i pereviryaye produktivnist na kozhnij pari vibranih parametriv na fiksovanomu perevirochnomu nabori abo za dopomogoyu vnutrishnogo perehresnogo zatverdzhuvannya na trenuvalnomu nabori i v comu vipadku kilka MOV proganyayut poparno Nareshti algoritm poshuku po gratci vidaye yak rezultat najvishij rezultat yakij bulo dosyagnuto na proceduri perevirki Poshuk po gratci strazhdaye vid proklyattya rozmirnosti ale chasto legko rozparalelyuyetsya oskilki zazvichaj giperparametrichni velichini z yakimi algoritm pracyuye ne zalezhat odna vid odnogo Vipadkovij poshuk Dokladnishe Vipadkovij poshuk Vipadkovij poshuk zaminyuye povnij perebir vsih kombinacij na yih vipadkovij vibir Ce mozhna legko zastosuvati do diskretnih vipadkiv navedenih vishe ale metod mozhna uzagalniti na neperervni ta zmishani prostori Vipadkovij poshuk mozhe perevershiti poshuk po gratci osoblivo yaksho lishe mala kilkist giperparametriv vplivaye na produktivnist algoritmu mashinnogo navchannya U comu vipadku kazhut sho zavdannya optimizaciyi maye nizku vnutrishnyu rozmirnist Vipadkovij poshuk takozh legko paralelizuyetsya i krim togo mozhlive vikoristannya poperednih danih cherez vibir rozpodilu dlya vibirki vipadkovih parametriv Bajyesova optimizaciya Bajyesova optimizaciya ce metod globalnoyi optimizaciyi dlya nevidomoyi funkciyi chornogo yashika z shumom Zastosovana do giperparametrichnoyi optimizaciyi bajyesivska optimizaciya buduye stohastichnu model funkciyi vidobrazhennya zi znachen giperparametru v cilovu funkciyu zastosovanu na zatverdzhuvalnomu nabori Shlyahom iterativnogo zastosuvannya perspektivnoyi konfiguraciyi giperparametriv zasnovanoyi na potochnij modeli a potim yiyi onovlennya bajyesivsku optimizaciya pragne zibrati yakomoga bilshe informaciyi pro cyu funkciyu i zokrema misce optimumu Metod namagayetsya zbalansuvati doslidzhennya giperparametri dlya yakih rezultat najmensh dostemenno vidomo i vikoristannya giperparametri yaki yak ochikuyetsya najbilsh blizki do optimumu Na praktici bajyesivska optimizaciya pokazala krashi rezultati z menshimi obchislennyami v porivnyanni z poshukom po gratci ta vipadkovim poshukom zavdyaki mozhlivosti sudzhennya pro yakist eksperimentiv she do yih vikonannya Optimizaciya na osnovi gradiyentiv Dlya konkretnih algoritmiv navchannya mozhna obchisliti gradiyent giperparametriv i optimizuvati yih za dopomogoyu gradiyentnogo spusku Pershe vikoristannya takih tehnik zoseredzhuvalos na nejronnih merezhah Potim ci metodi buli poshireni na inshi modeli taki yak metod opornih vektoriv abo logistichna regresiya Inshij pidhid vikoristannya gradiyentiv giperparametriv polyagaye v diferenciyuvanni krokiv algoritmu iterativnoyi optimizaciyi za dopomogoyu avtomatichnogo diferenciyuvannya Evolyucijna optimizaciya Dokladnishe Evolyucijnij algoritm Evolyucijna optimizaciya ce metodologiya dlya globalnoyi optimizaciyi nevidomih funkcij z shumom Pri optimizaciyi giperparametriv evolyucijna optimizaciya vikoristovuye evolyucijni algoritmi dlya poshuku giperparametriv dlya danogo algoritmu Evolyucijna optimizaciya giperparametriv dotrimuyetsya procesu naviyanogo biologichnoyu koncepciyeyu evolyuciyi Stvoryuyemo pochatkovu populyaciyu vipadkovih rishen tobto generuyemo vipadkovij kortezh giperparametriv zazvichaj 100 Ocinyuyemo kortezhi giperparametriv i otrimuyemo yih funkciyu dopasovanosti napriklad za dopomogoyu 10 kratnoyi tochnosti perehresnogo zatverdzhuvannya algoritmu mashinnogo navchannya z cimi giperparametrami Ranzhiruyemo kortezhi giperparametriv po yih vidnosnij pridatnosti Zaminyuyemo kortezhi giperparametriv z girshoyu produktivnistyu na novi kortezhi giperparametriv utvorenih shreshuvannyam i en Povtoryuyemo kroki 2 4 poki ne otrimayemo zadovilnu produktivnist algoritmu abo poki produktivnist ne perestane polipshuvatisya Evolyucijna optimizaciya vikoristovuyetsya dlya optimizaciyi giperparametriv dlya statistichnih algoritmivavtomatizovanogo mashinnogo navchannya dlya poshuku arhitekturi glibokih nejronnih merezh a takozh dlya formuvannya vag v glibokih nejronnih merezhah Na osnovi zaselennya Navchannya na osnovi zaselennya angl Population Based Training vivchaye yak znachennya giperparametriv tak i vagi merezhi Kilka procesiv navchannya pracyuyut nezalezhno vikoristovuyuchi rizni giperparametri Modeli yaki pogano pracyuyut iterativno zaminyuyutsya modelyami yaki vikoristovuyut modifikovani znachennya giperparametriv krashogo vikonavcya Modifikaciya dozvolyaye evolyucijno zminyuvati giperparametri i viklyuchaye neobhidnist ruchnogo nalashtuvannya giperparametriv Proces ne robit pripushen shodo arhitekturi modeli funkciyi vtrat chi proceduri navchannya Inshe Vidbuvayetsya takozh rozvitok metodiv na osnovi radialno bazisnoyi funkciyi RBF i spektralnogo metodu Programne zabezpechennya z vidkritim kodomPoshuk po gratci scikit learn ce paket na movi Python yakij mistit poshuk po gratci Talos mistit poshuk po gratci dlya paketa Keras LIBSVM maye skript dlya zdijsnennya poshuku po gratci Vipadkovij poshuk hyperopt cherez hyperas i hyperopt sklearn ce paketi na movi Python yaki mistyat vipadkovij poshuk scikit learn paket na movi Python sho mistit Talos mistit vipadkovij poshuk z nalashtuvannyami dlya Keras H2O AutoML zabezpechuye avtomatichnu pidgotovku danih nalashtuvannya giperparametriv vipadkovim poshukom i bagatorivnevi zbirki v rozpodilenij platformi mashinnogo navchannya Bajyesova optimizaciya Auto sklearn shar dlya bajyesivskoyi optimizaciyi poverh scikit learn Ax eksperimentalna platforma na Python yaka pidtrimuye Bajyesovu optimizaciyu yak doslidnicku strategiyu Auto WEKA shar dlya bajyesivskoyi optimizaciyi poverh WEKA Bayesopt efektivna implementaciya bajyesivskoyi optimizaciyi na C C z pidtrimkoyu Python Matlab i Octave BOCS paket Matlab yakij vikoristovuye en dlya minimizaciyi nevidomoyi funkciyi pri diskretnih vhidnih danih Mistit takozh implementaciyu dlya Python 3 HpBandSter paket na Python yakij kombinuye Bajyesovu optimizaciyu zi stohastichnimi metodami odnorukogo bandita mlrMBO z mlr ce paket na movi R dlya bajyesivskoyi optimizaciyi abo dlya optimizaciyi na osnovi modeli nevidomoyi funkciyi chornij yashik MOE ce biblioteka dlya Python C i sistemi paralelnih obchislen CUDA implementuye Bajyesova globalnu optimizaciyu vikoristovuyuchi gausovi procesi scikit optimize paket na Python abo poslidovna model optimizaciyi z interfejsom scipy optimize SMAC biblioteka na movah Python Java implementuye Bajyesovu optimizaciyu Spearmint ce paket dlya bajyesivskoyi optimizaciyi algoritmiv mashinnogo navchannya tuneRanger ce paket na movi R dlya nalashtuvannya vipadkovih lisiv z vikoristannyam optimizaciyi na bazi modeli Zasnovani na gradiyenti hypergrad ce paket na movi Python dlya diferenciyuvannya po giperparametram Evolyucijni metodi devol ce paket na movi Python yakij zdijsnyuye poshuk arhitekturi glibokoyi nejronnoyi merezhi za dopomogoyu genetichnogo programuvannya deap gnuchkij frejmvork na Python dlya zagalnih evolyucijnih obchislen vin ob yednanij z paketami rozparalelyuvannya takimi yak scoop i pyspark ta inshimi Python frejmvorkami na zrazok scikit learn cherez sklearn deap nevergrad paket na movi Python yakij vklyuchaye metodi kontrolyu populyaciyi ta optimizaciyu royu TPOT paket na movi Python yakij avtomatichno stvoryuye i optimizuye ves proces mashinnogo navchannya za dopomogoyu genetichnogo programuvannya Inshe dlib paket na C z Python API yakij maye optimizator bez parametriv LIPO ta optimizator en yaki pracyuyut razom Harmonica paket na Python dlya spektralnoyi optimizaciyi giperparametriv hyperopt cherez hyperas i hyperopt sklearn ce paketi Python yaki vklyuchayut zasnovanij na derevi parzenovskih ocinok algoritm optimizaciyi rozpodilenih giperparametriv nevergrad paket na Python dlya optimizaciyi bez gradiyentiv z vikoristannyam takih metodiv yak diferencijna evolyuciya poslidovne kvadratichne programuvannya fastGA adaptaciya kovariacijnoyi matrici metodi populyacijnogo kontrolyu i optimizaciya royu chastinok nni paket na Python yakij vklyuchaye nalashtuvannya giperparametriv dlya nejronnih merezh v lokalnih i rozpodilenih seredovishah Sered jogo metodiv TPE vipadkovi vidpalu evolyucijni SMAC paketni gratki i giperbend pycma ce implementaciya na movi Python algoritmu adaptaciyi kovariacijnoyi matrici angl Covariance Matrix Adaptation Evolution Strategy rbfopt paket na movi Python sho vikoristovuye model radialno bazisnoyi funkciyi SUMO Toolbox nabir instrumentiv MATLAB dlya en sho pidtrimuye shirokij nabir giperparametriv optimizacijnih algoritmiv dlya bagatoh tipiv modelej Komercijni servisiAmazon Sagemaker vikoristovuye Gausovi procesi dlya nalashtuvannya giperparametriv BigML OptiML pidtrimuye zmishani oblasti poshuku Google HyperTune pidtrimuye zmishani oblasti poshuku Indie Solver pidtrimuye bagatokriterialnu riznotipnu ta optimizaciyu z obmezhennyami Mind Foundry OPTaaS pidtrimuye zmishani oblasti poshuku bagatokriterialnu i paralelnu optimizaciyu optimizaciyu z obmezhennyami i surogatni modeli SigOpt pidtrimuye zmishani oblasti poshuku pidtrimuye bagatokriterialnu riznotipnu ta optimizaciyu z obmezhennyami i paralelnu optimizaciyu Div takozhAvtomatizovane mashinne navchannya angl AutoML Dilema zmishennya dispersiyi Znizhennya rozmirnosti Obirannya oznak Poshuk arhitekturi nejronnoyi merezhi Meta optimizaciya Obirannya modeli AvtonalashtuvannyaPrimitkiClaesen Marc Bart De Moor 2015 Hyperparameter Search in Machine Learning arXiv 1502 02127 cs LG Bergstra James Bengio Yoshua 2012 Random Search for Hyper Parameter Optimization PDF Journal of Machine Learning Research 13 281 305 Chin Wei Hsu Chih Chung Chang and Chih Jen Lin 2010 A practical guide to support vector classification Technical Report National Taiwan University Chicco D December 2017 Ten quick tips for machine learning in computational biology BioData Mining 10 35 35 doi 10 1186 s13040 017 0155 3 PMC 5721660 PMID 29234465 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Ziyu Wang Frank Hutter Masrour Zoghi David Matheson Nando de Feitas 2016 Bayesian Optimization in a Billion Dimensions via Random Embeddings Journal of Artificial Intelligence Research angl 55 361 387 doi 10 1613 jair 4806 Hutter Frank Hoos Holger Leyton Brown Kevin 2011 Sequential model based optimization for general algorithm configuration PDF Learning and Intelligent Optimization Lecture Notes in Computer Science 6683 507 523 CiteSeerX 10 1 1 307 8813 doi 10 1007 978 3 642 25566 3 40 ISBN 978 3 642 25565 6 Bergstra James Bardenet Remi Bengio Yoshua Kegl Balazs 2011 Algorithms for hyper parameter optimization PDF Advances in Neural Information Processing Systems Snoek Jasper Larochelle Hugo Adams Ryan 2012 Practical Bayesian Optimization of Machine Learning Algorithms PDF Advances in Neural Information Processing Systems arXiv 1206 2944 Bibcode 2012arXiv1206 2944S Thornton Chris Hutter Frank Hoos Holger Leyton Brown Kevin 2013 Auto WEKA Combined selection and hyperparameter optimization of classification algorithms PDF Knowledge Discovery and Data Mining arXiv 1208 3719 Bibcode 2012arXiv1208 3719T Larsen Jan Hansen Lars Kai Svarer Claus Ohlsson M 1996 Design and regularization of neural networks the optimal use of a validation set Proceedings of the 1996 IEEE Signal Processing Society Workshop Olivier Chapelle Vladimir Vapnik Olivier Bousquet Sayan Mukherjee 2002 Choosing multiple parameters for support vector machines PDF Machine Learning 46 131 159 doi 10 1023 a 1012450327387 Chuong B Chuan Sheng Foo Andrew Y Ng 2008 Efficient multiple hyperparameter learning for log linear models Advances in Neural Information Processing Systems 20 Domke Justin 2012 PDF Aistats 22 Arhiv originalu PDF za 24 sichnya 2014 Procitovano 12 lipnya 2019 Maclaurin Douglas Duvenaud David Adams Ryan P 2015 Gradient based Hyperparameter Optimization through Reversible Learning arXiv 1502 03492 stat ML Miikkulainen R Liang J Meyerson E Rawal A Fink D Francon O Raju B Shahrzad H Navruzyan A Duffy N Hodjat B 2017 Evolving Deep Neural Networks arXiv 1703 00548 cs NE Jaderberg M Dalibard V Osindero S Czarnecki WM Donahue J Razavi A Vinyals O Green T Dunning I Simonyan K Fernando C Kavukcuoglu K 2017 Population Based Training of Neural Networks arXiv 1711 09846 cs LG Such FP Madhavan V Conti E Lehman J Stanley KO Clune J 2017 Deep Neuroevolution Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning arXiv 1712 06567 cs NE Li Ang Spyra Ola Perel Sagi Dalibard Valentin Jaderberg Max Gu Chenjie Budden David Harley Tim Gupta Pramod 5 lyutogo 2019 A Generalized Framework for Population Based Training arXiv 1902 01894 cs AI Diaz Gonzalo Fokoue Achille Nannicini Giacomo Samulowitz Horst 2017 An effective algorithm for hyperparameter optimization of neural networks arXiv 1705 08520 cs AI Hazan Elad Klivans Adam Yuan Yang 2017 Hyperparameter Optimization A Spectral Approach arXiv 1706 00764 cs LG Feurer M Klein A Eggensperger K Springenberg J Blum M Hutter F 2015 Efficient and Robust Automated Machine Learning Advances in Neural Information Processing Systems 28 NIPS 2015 2962 2970 Open sourcing Ax and BoTorch New AI tools for adaptive experimentation 2019 Baptista Ricardo Poloczek Matthias 2018 Bayesian Optimization of Combinatorial Structures arXiv 1806 08838 stat ML Falkner Stefan Klein Aaron Hutter Frank 2018 BOHB Robust and Efficient Hyperparameter Optimization at Scale arXiv 1807 01774 stat ML skopt API documentation scikit optimize github io Hutter F Hoos HH Leyton Brown K Sequential Model Based Optimization for General Algorithm Configuration PDF Proceedings of the Conference on Learning and Intelligent OptimizatioN LION 5 QUESTION How to use to optimize NN hyperparameters Issue 1 facebookresearch nevergrad GitHub Nevergrad An open source tool for derivative free optimization 20 grudnya 2018 A toolkit for making real world machine learning and data analysis applications in C davisking dlib 25 lyutogo 2019 cherez GitHub King Davis A Global Optimization Algorithm Worth Using