У машинному навчанні гіперпараметр — це параметр, значення якого використовується для керування процесом навчання. На відміну від цього, значення інших параметрів (як правило, вага вузлів) виводяться за допомогою навчання.
Гіперпараметри можна класифікувати як гіперпараметри моделі, які неможливо визначити під час [en], оскільки вони відносяться до задачі вибору моделі, або гіперпараметри алгоритму, які в принципі не впливають на продуктивність моделі, але впливають на швидкість і якість навчального процесу. Прикладом гіперпараметра моделі є топологія та розмір нейронної мережі. Прикладами гіперпараметрів алгоритму є швидкість навчання та розмір пакету, а також розмір міні-пакету. Розмір пакету може посилатися на повну вибірку даних, де розмір міні-партії буде меншим набором вибірки.
Різні алгоритми навчання моделі вимагають різних гіперпараметрів, деякі прості алгоритми (наприклад, [en]) не потребують жодного. Враховуючи ці гіперпараметри, навчальний алгоритм вивчає параметри з даних. Наприклад, [en] — це алгоритм, який додає гіперпараметр регуляризації до звичайної регресії за найменшими квадратами, який необхідно встановити перед оцінкою параметрів за допомогою навчального алгоритму.
Міркування
Час, необхідний для навчання та тестування моделі, може залежати від вибору її гіперпараметрів. Гіперпараметр зазвичай має безперервний або цілочисельний тип, що призводить до проблем оптимізації змішаного типу. Існування одних гіперпараметрів залежить від значення інших, наприклад, розмір кожного прихованого шару в нейронній мережі може залежати від кількості шарів.
Важкі для сприйняття параметри
Зазвичай, але не завжди, гіперпараметри неможливо вивчити за допомогою відомих методів, заснованих на градієнті (таких як градієнтний спуск, LBFGS), які зазвичай використовуються для вивчення параметрів. Ці гіперпараметри — це параметри, що описують представлення моделі, які неможливо дізнатися за допомогою звичайних методів оптимізації, але, тим не менш, впливають на функцію втрат. Прикладом може бути гіперпараметр допуску для помилок у машинах опорних векторів.
Параметри, які не підлягають навчанню
Іноді гіперпараметри не можна дізнатися з навчальних даних, оскільки вони швидко збільшують ємність моделі і можуть знизити функцію втрат до небажаного мінімуму (перевірка даних і збільшення шуму в даних), на відміну від правильного відображення насиченості даних. Наприклад, якщо ми розглядатимемо степінь многочлена, що відповідає моделі регресії, як параметр, який можна навчати, степінь буде збільшуватися до тих пір, поки модель ідеально не відповідатиме даним, що дасть низьку похибку навчання, але не велику продуктивність узагальнення.
Можливість налаштування
Більшу частину змін продуктивності можна пояснити лише кількома гіперпараметрами. Можливість налаштування алгоритму, гіперпараметра або взаємодіючих гіперпараметрів є мірою того, наскільки продуктивність може бути досягнута шляхом їх налаштування. Для LSTM, в той час як швидкість навчання, а потім розмір мережі є його найважливішими гіперпараметрами, пакетна робота та імпульс не мають значного впливу на його продуктивність.
Міцність
Внутрішня стохастичність навчання прямо означає, що емпірична продуктивність гіперпараметра не обов'язково є його справжньою продуктивністю. Методи, які не стійкі до простих змін гіперпараметрів, випадкових початкових даних або навіть різних реалізацій одного і того ж алгоритму, не можуть бути інтегровані в критично важливі системи керування без значного спрощення та надійності.
Алгоритми навчання з підкріпленням, зокрема, вимагають вимірювання їхньої ефективності щодо великої кількості випадкових зародків, а також вимірювання їх чутливості до вибору гіперпараметрів. Їхня оцінка за допомогою невеликої кількості випадкових зерен не фіксує належним чином продуктивність через високу дисперсію. Деякі методи навчання з підкріпленням, напр DDPG (Deep Deterministic Policy Gradient) є більш чутливими до вибору гіперпараметрів, ніж інші.
Оптимізація
Оптимізація гіперпараметрів знаходить набір гіперпараметрів, що дає оптимальну модель, яка мінімізує попередньо визначену функцію втрат на заданих тестових даних. Цільова функція приймає набір гіперпараметрів і повертає пов'язані втрати.
Відтворюваність
Окрім налаштування гіперпараметрів, машинне навчання передбачає збереження й упорядкування параметрів і результатів, а також забезпечення їх відтворюваності. За відсутності надійної інфраструктури для цієї мети код дослідження часто розвивається швидко і ставить під загрозу такі важливі аспекти, як бухгалтерський облік і відтворюваність. Онлайн-платформи для співпраці для машинного навчання йдуть далі, дозволяючи вченим автоматично обмінюватися, організовувати та обговорювати експерименти, дані та алгоритми. Відтворюваність може бути особливо важкою для моделей глибокого навчання.
Існує ряд відповідних служб і програмного забезпечення з відкритим кодом:
Послуги
Ім'я | Інтерфейси |
---|---|
Comet.ml [ 27 січня 2020 у Wayback Machine.] | Python |
OpenML [ 25 травня 2022 у Wayback Machine.] | REST, Python, Java, R |
Вага та упередження [ 20 листопада 2020 у Wayback Machine.] | Python |
Програмне забезпечення
Ім'я | Інтерфейси | Магазин |
---|---|---|
Вирішується [ 30 травня 2022 у Wayback Machine.] | REST, Python | PostgreSQL |
OpenML Docker [ 24 травня 2022 у Wayback Machine.] | REST, Python, Java, R | MySQL |
sacred [ 24 травня 2022 у Wayback Machine.] | Python | file, MongoDB, TinyDB, SQL |
Див. також
- [en]
- Криза реплікації
Примітки
- Yang, Li; Shami, Abdallah (20 листопада 2020). On hyperparameter optimization of machine learning algorithms: Theory and practice. Neurocomputing (англ.). 415: 295—316. doi:10.1016/j.neucom.2020.07.061. ISSN 0925-2312.
- Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015). arXiv:1502.02127. Bibcode:2015arXiv150202127C.
- Leyton-Brown, Kevin; Hoos, Holger; Hutter, Frank (27 січня 2014). : 754—762. Архів оригіналу за 20 травня 2022. Процитовано 28 травня 2022 — через proceedings.mlr.press.
- van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017). arXiv:1710.04725. Bibcode:2017arXiv171004725V.
- Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018). arXiv:1802.09596. Bibcode:2018arXiv180209596P.
- Greff, K.; Srivastava, R. K.; Koutník, J.; Steunebrink, B. R.; Schmidhuber, J. (23 жовтня 2017). LSTM: A Search Space Odyssey. IEEE Transactions on Neural Networks and Learning Systems. 28 (10): 2222—2232. arXiv:1503.04069. doi:10.1109/TNNLS.2016.2582924. PMID 27411231.
- Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015). arXiv:1508.02774. Bibcode:2015arXiv150802774B.
- Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018). arXiv:1803.07055. Bibcode:2018arXiv180307055M.
- (PDF). 2015. Архів оригіналу (PDF) за 7 квітня 2018. Процитовано 28 травня 2022.
- (PDF). 2017. Архів оригіналу (PDF) за 29 вересня 2020. Процитовано 28 травня 2022.
- Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014). arXiv:1407.7722. Bibcode:2014arXiv1407.7722V.
- Villa, Jennifer; Zimmerman, Yoav (25 травня 2018). . Determined AI Blog. Архів оригіналу за 19 вересня 2020. Процитовано 31 серпня 2020.
- . Архів оригіналу за 12 червня 2021. Процитовано 28 травня 2022.
- Inc, Comet ML. . Архів оригіналу за 27 січня 2020. Процитовано 28 травня 2022.
- Van Rijn, Jan N.; Bischl, Bernd; Torgo, Luis; Gao, Bo; Umaashankar, Venkatesh; Fischer, Simon; Winter, Patrick; Wiswedel, Bernd; Berthold, Michael R. (2013). OpenML: A Collaborative Science Platform. Van Rijn, Jan N., et al. "OpenML: A collaborative science platform." Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Berlin, Heidelberg, 2013. Lecture Notes in Computer Science. Т. 7908. с. 645—649. doi:10.1007/978-3-642-40994-3_46. ISBN .
- Vanschoren, Joaquin, Jan N. van Rijn, and Bernd Bischl. "Taking machine learning research online with OpenML." Proceedings of the 4th International Conference on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications-Volume 41. JMLR. org, 2015 (PDF).
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () - . 19 грудня 2016. Архів оригіналу за 4 січня 2017. Процитовано 28 травня 2022.
- . GitHub. Архів оригіналу за 24 травня 2022. Процитовано 28 травня 2022.
- . Архів оригіналу за 28 жовтня 2020.
- . Архів оригіналу за 8 листопада 2020.
- Greff, Klaus (3 січня 2020). . Архів оригіналу за 24 травня 2022. Процитовано 28 травня 2022.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U mashinnomu navchanni giperparametr ce parametr znachennya yakogo vikoristovuyetsya dlya keruvannya procesom navchannya Na vidminu vid cogo znachennya inshih parametriv yak pravilo vaga vuzliv vivodyatsya za dopomogoyu navchannya Giperparametri mozhna klasifikuvati yak giperparametri modeli yaki nemozhlivo viznachiti pid chas en oskilki voni vidnosyatsya do zadachi viboru modeli abo giperparametri algoritmu yaki v principi ne vplivayut na produktivnist modeli ale vplivayut na shvidkist i yakist navchalnogo procesu Prikladom giperparametra modeli ye topologiya ta rozmir nejronnoyi merezhi Prikladami giperparametriv algoritmu ye shvidkist navchannya ta rozmir paketu a takozh rozmir mini paketu Rozmir paketu mozhe posilatisya na povnu vibirku danih de rozmir mini partiyi bude menshim naborom vibirki Rizni algoritmi navchannya modeli vimagayut riznih giperparametriv deyaki prosti algoritmi napriklad en ne potrebuyut zhodnogo Vrahovuyuchi ci giperparametri navchalnij algoritm vivchaye parametri z danih Napriklad en ce algoritm yakij dodaye giperparametr regulyarizaciyi do zvichajnoyi regresiyi za najmenshimi kvadratami yakij neobhidno vstanoviti pered ocinkoyu parametriv za dopomogoyu navchalnogo algoritmu MirkuvannyaChas neobhidnij dlya navchannya ta testuvannya modeli mozhe zalezhati vid viboru yiyi giperparametriv Giperparametr zazvichaj maye bezperervnij abo cilochiselnij tip sho prizvodit do problem optimizaciyi zmishanogo tipu Isnuvannya odnih giperparametriv zalezhit vid znachennya inshih napriklad rozmir kozhnogo prihovanogo sharu v nejronnij merezhi mozhe zalezhati vid kilkosti shariv Vazhki dlya sprijnyattya parametri Zazvichaj ale ne zavzhdi giperparametri nemozhlivo vivchiti za dopomogoyu vidomih metodiv zasnovanih na gradiyenti takih yak gradiyentnij spusk LBFGS yaki zazvichaj vikoristovuyutsya dlya vivchennya parametriv Ci giperparametri ce parametri sho opisuyut predstavlennya modeli yaki nemozhlivo diznatisya za dopomogoyu zvichajnih metodiv optimizaciyi ale tim ne mensh vplivayut na funkciyu vtrat Prikladom mozhe buti giperparametr dopusku dlya pomilok u mashinah opornih vektoriv Parametri yaki ne pidlyagayut navchannyu Inodi giperparametri ne mozhna diznatisya z navchalnih danih oskilki voni shvidko zbilshuyut yemnist modeli i mozhut zniziti funkciyu vtrat do nebazhanogo minimumu perevirka danih i zbilshennya shumu v danih na vidminu vid pravilnogo vidobrazhennya nasichenosti danih Napriklad yaksho mi rozglyadatimemo stepin mnogochlena sho vidpovidaye modeli regresiyi yak parametr yakij mozhna navchati stepin bude zbilshuvatisya do tih pir poki model idealno ne vidpovidatime danim sho dast nizku pohibku navchannya ale ne veliku produktivnist uzagalnennya Mozhlivist nalashtuvannya Bilshu chastinu zmin produktivnosti mozhna poyasniti lishe kilkoma giperparametrami Mozhlivist nalashtuvannya algoritmu giperparametra abo vzayemodiyuchih giperparametriv ye miroyu togo naskilki produktivnist mozhe buti dosyagnuta shlyahom yih nalashtuvannya Dlya LSTM v toj chas yak shvidkist navchannya a potim rozmir merezhi ye jogo najvazhlivishimi giperparametrami paketna robota ta impuls ne mayut znachnogo vplivu na jogo produktivnist Micnist Vnutrishnya stohastichnist navchannya pryamo oznachaye sho empirichna produktivnist giperparametra ne obov yazkovo ye jogo spravzhnoyu produktivnistyu Metodi yaki ne stijki do prostih zmin giperparametriv vipadkovih pochatkovih danih abo navit riznih realizacij odnogo i togo zh algoritmu ne mozhut buti integrovani v kritichno vazhlivi sistemi keruvannya bez znachnogo sproshennya ta nadijnosti Algoritmi navchannya z pidkriplennyam zokrema vimagayut vimiryuvannya yihnoyi efektivnosti shodo velikoyi kilkosti vipadkovih zarodkiv a takozh vimiryuvannya yih chutlivosti do viboru giperparametriv Yihnya ocinka za dopomogoyu nevelikoyi kilkosti vipadkovih zeren ne fiksuye nalezhnim chinom produktivnist cherez visoku dispersiyu Deyaki metodi navchannya z pidkriplennyam napr DDPG Deep Deterministic Policy Gradient ye bilsh chutlivimi do viboru giperparametriv nizh inshi OptimizaciyaOptimizaciya giperparametriv znahodit nabir giperparametriv sho daye optimalnu model yaka minimizuye poperedno viznachenu funkciyu vtrat na zadanih testovih danih Cilova funkciya prijmaye nabir giperparametriv i povertaye pov yazani vtrati VidtvoryuvanistOkrim nalashtuvannya giperparametriv mashinne navchannya peredbachaye zberezhennya j uporyadkuvannya parametriv i rezultativ a takozh zabezpechennya yih vidtvoryuvanosti Za vidsutnosti nadijnoyi infrastrukturi dlya ciyeyi meti kod doslidzhennya chasto rozvivayetsya shvidko i stavit pid zagrozu taki vazhlivi aspekti yak buhgalterskij oblik i vidtvoryuvanist Onlajn platformi dlya spivpraci dlya mashinnogo navchannya jdut dali dozvolyayuchi vchenim avtomatichno obminyuvatisya organizovuvati ta obgovoryuvati eksperimenti dani ta algoritmi Vidtvoryuvanist mozhe buti osoblivo vazhkoyu dlya modelej glibokogo navchannya Isnuye ryad vidpovidnih sluzhb i programnogo zabezpechennya z vidkritim kodom Poslugi Im ya InterfejsiComet ml 27 sichnya 2020 u Wayback Machine PythonOpenML 25 travnya 2022 u Wayback Machine REST Python Java RVaga ta uperedzhennya 20 listopada 2020 u Wayback Machine PythonProgramne zabezpechennya Im ya Interfejsi MagazinVirishuyetsya 30 travnya 2022 u Wayback Machine REST Python PostgreSQLOpenML Docker 24 travnya 2022 u Wayback Machine REST Python Java R MySQLsacred 24 travnya 2022 u Wayback Machine Python file MongoDB TinyDB SQLDiv takozh en Kriza replikaciyiPrimitkiYang Li Shami Abdallah 20 listopada 2020 On hyperparameter optimization of machine learning algorithms Theory and practice Neurocomputing angl 415 295 316 doi 10 1016 j neucom 2020 07 061 ISSN 0925 2312 Claesen Marc and Bart De Moor Hyperparameter Search in Machine Learning arXiv preprint arXiv 1502 02127 2015 arXiv 1502 02127 Bibcode 2015arXiv150202127C Leyton Brown Kevin Hoos Holger Hutter Frank 27 sichnya 2014 754 762 Arhiv originalu za 20 travnya 2022 Procitovano 28 travnya 2022 cherez proceedings mlr press van Rijn Jan N and Frank Hutter Hyperparameter Importance Across Datasets arXiv preprint arXiv 1710 04725 2017 arXiv 1710 04725 Bibcode 2017arXiv171004725V Probst Philipp Bernd Bischl and Anne Laure Boulesteix Tunability Importance of Hyperparameters of Machine Learning Algorithms arXiv preprint arXiv 1802 09596 2018 arXiv 1802 09596 Bibcode 2018arXiv180209596P Greff K Srivastava R K Koutnik J Steunebrink B R Schmidhuber J 23 zhovtnya 2017 LSTM A Search Space Odyssey IEEE Transactions on Neural Networks and Learning Systems 28 10 2222 2232 arXiv 1503 04069 doi 10 1109 TNNLS 2016 2582924 PMID 27411231 Breuel Thomas M Benchmarking of LSTM networks arXiv preprint arXiv 1508 02774 2015 arXiv 1508 02774 Bibcode 2015arXiv150802774B Mania Horia Aurelia Guy and Benjamin Recht Simple random search provides a competitive approach to reinforcement learning arXiv preprint arXiv 1803 07055 2018 arXiv 1803 07055 Bibcode 2018arXiv180307055M PDF 2015 Arhiv originalu PDF za 7 kvitnya 2018 Procitovano 28 travnya 2022 PDF 2017 Arhiv originalu PDF za 29 veresnya 2020 Procitovano 28 travnya 2022 Vanschoren Joaquin et al OpenML networked science in machine learning arXiv preprint arXiv 1407 7722 2014 arXiv 1407 7722 Bibcode 2014arXiv1407 7722V Villa Jennifer Zimmerman Yoav 25 travnya 2018 Determined AI Blog Arhiv originalu za 19 veresnya 2020 Procitovano 31 serpnya 2020 Arhiv originalu za 12 chervnya 2021 Procitovano 28 travnya 2022 Inc Comet ML Arhiv originalu za 27 sichnya 2020 Procitovano 28 travnya 2022 Van Rijn Jan N Bischl Bernd Torgo Luis Gao Bo Umaashankar Venkatesh Fischer Simon Winter Patrick Wiswedel Bernd Berthold Michael R 2013 OpenML A Collaborative Science Platform Van Rijn Jan N et al OpenML A collaborative science platform Joint European Conference on Machine Learning and Knowledge Discovery in Databases Springer Berlin Heidelberg 2013 Lecture Notes in Computer Science T 7908 s 645 649 doi 10 1007 978 3 642 40994 3 46 ISBN 978 3 642 38708 1 Vanschoren Joaquin Jan N van Rijn and Bernd Bischl Taking machine learning research online with OpenML Proceedings of the 4th International Conference on Big Data Streams and Heterogeneous Source Mining Algorithms Systems Programming Models and Applications Volume 41 JMLR org 2015 PDF a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya 19 grudnya 2016 Arhiv originalu za 4 sichnya 2017 Procitovano 28 travnya 2022 GitHub Arhiv originalu za 24 travnya 2022 Procitovano 28 travnya 2022 Arhiv originalu za 28 zhovtnya 2020 Arhiv originalu za 8 listopada 2020 Greff Klaus 3 sichnya 2020 Arhiv originalu za 24 travnya 2022 Procitovano 28 travnya 2022