Регуляризація, в математиці і статистиці, а також в задачах машинного навчання і [en], означає додавання деякої додаткової інформації, щоб знайти рішення некоректно поставленої задачі, або щоб уникнути перенавчання.
Використання регуляризації для класифікації
Регуляризацію використовують у задачах класифікації. Емпіричне навчання класифікаторів на скінченному набору даних завжди є недостатньо визначеною задачею, бо в загальному випадку ми намагаємось вивести функцію від довільного по декільком заданим прикладам .
Загалом регуляризуючий вираз додається до функції втрат:
де — функція, що визначає похибку передбачення для значень , (наприклад, квадрати похибок), а параметр визначає важливість доданка для регуляризації. Зазвичай визначається як штраф за складність функції . Зокрема, поняття складності включає обмеження на гладкість та на норму векторного простору.
Фактично, процедура регуляризації є спробою застосувати лезо Оккама до рішення (див. малюнок вище). З точки зору баєсового висновування, багато технік регуляризації є накладанням обмежень на апріорний вигляд розподілу параметрів моделі.
Узагальнення
Регуляризація може використовуватись як спосіб покращення узагальнення для моделі у машинному навчанні.
Основна задача машинного навчання полягає в тому, щоб знайти функцію, сумарна похибка передбачень якої для всіх можливих значень була б мінімальною. Очікувана похибка виражається як:
Зазвичай в таких задачах лише частина усіх можливих даних, частково зашумлених, є доступною для навчання. Таким чином, очікувана похибка є необчислюваною величиною, і найкраще наближення — це емпірична похибка, що вираховується на базі доступних зразків:
Без обмежень складності функціонального простору, в якому проводиться пошук, модель може бути навчена так, щоб відповідна їй функція проходила через кожну точку наявних даних . Але якщо значення містять шум, то модель може "страждати" від перенавчання і видавати погані значення очікуваних помилок. Регуляризація вводить штраф за включення зайвих областей функціонального простору, що використовується для побудови моделі і це може покращити узагальнення.
Регуляризація Тихонова
При навчанні лінійною функцією, такою як , в якій шуканий вектор, -норма функції втрат відповідає регуляризації [en]. Ця, одна з найбільш використовуваних форм регуляризації, виражається як:
У випадку загальної функції, ми беремо норму функції у її [en]:
Оскільки норма (диференційовна), то проблема навчання з використанням регуляризації Тихонова, може бути розв'язана градієнтним спуском.
Регуляризація Тихонова для методу найменших квадратів
Навчання з функцією втрат, вираженою методом найменших квадратів і регуляризація Тихонова можна розв'язати аналітично.
Відповідно до оптимізаційної задачи, інші значення будуть давати більші значення для функції втрат. Це можна перевірити за допомогою другої похідної .
Цей алгоритм потребує часу для тренування. Доданками тут є час на пошук зворотньої матриці і на обчислення , відповідно. Перевірка займає час .
Рання зупинка
Рання зупинка може бути розглянута як регуляризація в часі. Загалом, такі методики як градієнтний спуск, мають тенденцію до створення все більш і більш складних функцій з часом. За допомогою регуляризації в часі складність моделі може контролюватися.
На практиці, для впровадження цієї методики, використовується додатковий валідаційний масив даних, статистично незалежний від того, що використовується для тренування. Модель тренується до тих пір, доки результативність на валідаційному масиві не перестає зростати. Після цього модель тестується на тестовому масиві.
Див. також
Примітки
- Bishop, Christopher M. (2007). Pattern recognition and machine learning (вид. Corr. printing.). New York: Springer. ISBN .
Посилання
- A. Neumaier, Solving ill-conditioned and singular linear systems: A tutorial on regularization, SIAM Review 40 (1998), 636—666. Available in pdf from author's website.
- Rosasco, L. Regularized Least Squares, Class Notes from MIT 9.520. Link
- L. Rosasco, T. Poggio, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes (book draft), 2015.
- Rosasco, L. Early Stopping, Class Notes from MIT 9.520. http://www.mit.edu/~9.520/fall15/Classes/early_stopping.html
- Rosasco, L. Sparsity, Class Notes from MIT 9.520. http://www.mit.edu/~9.520/fall15/Classes/sparsity.html
- Rosasco, L. Proximal Methods, Class Notes from MIT 9.520. http://www.mit.edu/~9.520/fall15/Classes/proxy.html
Це незавершена стаття зі штучного інтелекту. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Regulyarizaciya v matematici i statistici a takozh v zadachah mashinnogo navchannya i en oznachaye dodavannya deyakoyi dodatkovoyi informaciyi shob znajti rishennya nekorektno postavlenoyi zadachi abo shob uniknuti perenavchannya Obidvi funkciyi tochno opisuyut eksperimentalni tochki z nulovoyu pohibkoyu Navchena model mozhe buti shilna vibirati zelenu funkciyu sho mozhe buti blizhchoyu do spravzhnoyi nevidomoyi funkciyi rozpodilu za dopomogoyu l displaystyle lambda vagi regulyarizuyuchogo virazu Vikoristannya regulyarizaciyi dlya klasifikaciyiRegulyarizaciyu vikoristovuyut u zadachah klasifikaciyi Empirichne navchannya klasifikatoriv na skinchennomu naboru danih zavzhdi ye nedostatno viznachenoyu zadacheyu bo v zagalnomu vipadku mi namagayemos vivesti funkciyu vid dovilnogo x displaystyle x po dekilkom zadanim prikladam x 1 x 2 x n displaystyle x 1 x 2 x n Zagalom regulyarizuyuchij viraz R f displaystyle R f dodayetsya do funkciyi vtrat min f i 1 n V f x i y i l R f displaystyle min f sum i 1 n V f hat x i hat y i lambda R f de V displaystyle V funkciya sho viznachaye pohibku peredbachennya f x displaystyle f x dlya znachen y displaystyle y napriklad kvadrati pohibok a parametr l displaystyle lambda viznachaye vazhlivist dodanka dlya regulyarizaciyi Zazvichaj R f displaystyle R f viznachayetsya yak shtraf za skladnist funkciyi f displaystyle f Zokrema ponyattya skladnosti vklyuchaye obmezhennya na gladkist ta na normu vektornogo prostoru Faktichno procedura regulyarizaciyi ye sproboyu zastosuvati lezo Okkama do rishennya div malyunok vishe Z tochki zoru bayesovogo visnovuvannya bagato tehnik regulyarizaciyi ye nakladannyam obmezhen na apriornij viglyad rozpodilu parametriv modeli Uzagalnennya Dokladnishe Pohibka uzagalnennya Regulyarizaciya mozhe vikoristovuvatis yak sposib pokrashennya uzagalnennya dlya modeli u mashinnomu navchanni Osnovna zadacha mashinnogo navchannya polyagaye v tomu shob znajti funkciyu sumarna pohibka peredbachen yakoyi dlya vsih mozhlivih znachen bula b minimalnoyu Ochikuvana pohibkaf n displaystyle f n virazhayetsya yak I f n X Y V f n x y r x y d x d y displaystyle I f n int X times Y V f n x y rho x y dx dy Zazvichaj v takih zadachah lishe chastina usih mozhlivih danih chastkovo zashumlenih ye dostupnoyu dlya navchannya Takim chinom ochikuvana pohibka ye neobchislyuvanoyu velichinoyu i najkrashe nablizhennya ce empirichna pohibka sho virahovuyetsya na bazi N displaystyle N dostupnih zrazkiv I S f n 1 n i 1 N V f n x i y i displaystyle I S f n frac 1 n sum i 1 N V f n hat x i hat y i Bez obmezhen skladnosti funkcionalnogo prostoru v yakomu provoditsya poshuk model mozhe buti navchena tak shob vidpovidna yij funkciya prohodila cherez kozhnu tochku nayavnih danih x i displaystyle x i Ale yaksho znachennya x i displaystyle x i mistyat shum to model mozhe strazhdati vid perenavchannya i vidavati pogani znachennya ochikuvanih pomilok Regulyarizaciya vvodit shtraf za vklyuchennya zajvih oblastej funkcionalnogo prostoru sho vikoristovuyetsya dlya pobudovi modeli i ce mozhe pokrashiti uzagalnennya Regulyarizaciya TihonovaSyudi perenapravlyayetsya zapit Grebeneva regresiya Na cyu temu potribna okrema stattya Pri navchanni linijnoyu funkciyeyu takoyu yak f x w x displaystyle f x w cdot x v yakij w displaystyle w shukanij vektor L 2 displaystyle L 2 norma funkciyi vtrat vidpovidaye regulyarizaciyi en Cya odna z najbilsh vikoristovuvanih form regulyarizaciyi virazhayetsya yak min w i 1 n V x i w y i l w 2 2 displaystyle min w sum i 1 n V hat x i cdot w hat y i lambda w 2 2 U vipadku zagalnoyi funkciyi mi beremo normu funkciyi u yiyi en min f i 1 n V f x i y i l f H 2 displaystyle min f sum i 1 n V f hat x i hat y i lambda f mathcal H 2 Oskilki norma L 2 displaystyle L 2 diferencijovna to problema navchannya z vikoristannyam regulyarizaciyi Tihonova mozhe buti rozv yazana gradiyentnim spuskom Regulyarizaciya Tihonova dlya metodu najmenshih kvadrativ Navchannya z funkciyeyu vtrat virazhenoyu metodom najmenshih kvadrativ i regulyarizaciya Tihonova mozhna rozv yazati analitichno min w 1 n X w Y 2 l w 2 2 displaystyle min w frac 1 n hat X w hat Y 2 lambda w 2 2 w 2 n X T X w Y 2 l w displaystyle nabla w frac 2 n hat X T hat X w hat Y 2 lambda w displaystyle leftarrow neobhidna umova ekstremumu 0 X T X w Y n l w displaystyle 0 hat X T hat X w hat Y n lambda w w X T X l n I 1 X T Y displaystyle w hat X T hat X lambda nI 1 hat X T hat Y Vidpovidno do optimizacijnoyi zadachi inshi znachennya w displaystyle w budut davati bilshi znachennya dlya funkciyi vtrat Ce mozhna pereviriti za dopomogoyu drugoyi pohidnoyi w w displaystyle nabla ww Cej algoritm potrebuye O d 3 n d 2 displaystyle O d 3 nd 2 chasu dlya trenuvannya Dodankami tut ye chas na poshuk zvorotnoyi matrici i na obchislennya X T X displaystyle X T X vidpovidno Perevirka zajmaye chas O n d displaystyle O nd Rannya zupinkaRannya zupinka mozhe buti rozglyanuta yak regulyarizaciya v chasi Zagalom taki metodiki yak gradiyentnij spusk mayut tendenciyu do stvorennya vse bilsh i bilsh skladnih funkcij z chasom Za dopomogoyu regulyarizaciyi v chasi skladnist modeli mozhe kontrolyuvatisya Na praktici dlya vprovadzhennya ciyeyi metodiki vikoristovuyetsya dodatkovij validacijnij masiv danih statistichno nezalezhnij vid togo sho vikoristovuyetsya dlya trenuvannya Model trenuyetsya do tih pir doki rezultativnist na validacijnomu masivi ne perestaye zrostati Pislya cogo model testuyetsya na testovomu masivi Div takozhViklyuchennya nejronni merezhi PrimitkiBishop Christopher M 2007 Pattern recognition and machine learning vid Corr printing New York Springer ISBN 978 0387310732 PosilannyaA Neumaier Solving ill conditioned and singular linear systems A tutorial on regularization SIAM Review 40 1998 636 666 Available in pdf from author s website Rosasco L Regularized Least Squares Class Notes from MIT 9 520 Link L Rosasco T Poggio A Regularization Tour of Machine Learning MIT 9 520 Lectures Notes book draft 2015 Rosasco L Early Stopping Class Notes from MIT 9 520 http www mit edu 9 520 fall15 Classes early stopping html Rosasco L Sparsity Class Notes from MIT 9 520 http www mit edu 9 520 fall15 Classes sparsity html Rosasco L Proximal Methods Class Notes from MIT 9 520 http www mit edu 9 520 fall15 Classes proxy html Ce nezavershena stattya zi shtuchnogo intelektu Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi