У машинному навчанні та математичній оптимізації функції втрат для класифікації є обчислювальними функціями втрат, що представляють ціну, сплачену за неточність прогнозів у задачах класифікації (потрібно ідентифікувати до якої категорії належить конкретне спостереження).
Дано як простір усіх можливих вхідних даних (зазвичай ), і як набір міток (можливих вихідних даних), типовою метою алгоритмів класифікації є пошук функції , яка найкраще прогнозує значення мітки для заданого входу . Однак, через неповну інформацію, наявність шуму під час вимірювання, або ймовірнісні складові процесу, який досліджується, можливо для одного і того ж самого мати, як передбачення, різні . В результаті, метою навчання є мінімізація очікуваних втрат (також відомих як ризик), визначених як
де — задана функція втрат і — функція густини ймовірності процесу, яка генерує дані. Еквівалентно цю функцію можна записати як
У рамках класифікації часто використовують функції втрат, трактовані виключно в термінах добутку справжньої мітки на передбачену мітку . Отже, їх можна визначити як функцію лише однієї змінної , таким чином з правильно обраною функцією . Вони називаються функціями втрат на основі маржі (margin-based loss functions). Вибір функції втрат на основі маржі прирівнюється до вибору . Обрання функції втрат у цій структурі впливає на оптимальну , яка мінімізує очікуваний ризик.
У разі бінарної класифікації можна спростити розрахунок очікуваного ризику за допомогою зазначеного вище інтегралу. Зокрема,
Друга рівність випливає з описаних вище властивостей. Третя рівність випливає з того факту, що 1 і −1 є єдино можливими значеннями для , а четверте — за рахунок Вираз у дужках відомий як очікуваний ризик.
Для мінімізатора можна вирішити проблему, взявши функціональну похідну від останньої рівності відносно , при цьому встановити похідну рівною 0. Це призведе до рівняння
що також є еквівалентним встановленню похідної від умовного ризику рівною нулю.
Враховуючи бінарну природу класифікації, природним відбором для функції втрат (припускаючи однакову вартість хибно позитивного та хибно негативного) буде (функція втрат 0-1) (характеристична функція 0–1). Вона приймає значення 0, якщо прогнозована класифікація дорівнює класифікації істинного класу або 1, якщо прогнозована класифікація не відповідає істинному класу. Цей вибір моделюється за формулою
де позначає ступінчасту функцію Гевісайда. Однак, ця функція втрат є неопуклою і негладкою, і пошук оптимального рішення є NP-складною комбінаторною задачею оптимізації. Як результат, краще розглянути сурогатні функції втрат, які підходять для часто вживаних алгоритмів навчання, оскільки вони мають і опуклі, і гладкі властивості. На додаток до їх обчислювальної керованості, можна показати, що вирішення проблеми навчання з використанням цих сурогатних функцій втрат дозволяють відновити фактичне вирішення вихідної проблеми класифікації. Деякі з цих сурогатів описані нижче.
На практиці, розподіл ймовірностей є невідомим. Отже, використовуючи навчальний набір з незалежних та однаково розподілених точок вибірки
взятих з простору елементарних подій, ми прагнемо мінімізувати емпіричний ризик
як непрямий показник очікуваного ризику. (Див. статистичну теорію навчання для більш детального опису.)
Узгодженість Баєса
Використовуючи теорему Баєса, можна показати, що оптимальне , тобто те, що мінімізує очікуваний ризик пов'язаний із 0-1 втратою, реалізує правило оптимального рішення Байєса для проблеми бінарної класифікації та має форму
- .
Кажуть, що функція втрат є каліброваною за класифікацією або узгодженою за Баєсом, якщо її оптимальне є таким, що і, таким чином, є оптимальним за правилом Баєса. Узгоджена функція втрат Баєса дозволяє нам знайти функцію оптимального рішення Баєса шляхом безпосередньої мінімізації очікуваного ризику і без необхідності явного моделювання функцій густини ймовірності.
Для опуклої функції втрат маржі , можна показати, що є узгодженою за Баєсом тоді і тільки тоді, коли вона диференційована в 0 і . Проте цей результат не виключає існування неопуклих та узгоджених за Байєсом функцій втрат. Більш загальний результат стверджує, що узгоджені функції втрат Баєса можна створити за допомогою наступної формулювання
- ,
де — будь-яка інвертована функція така, що і — будь-яка диференційована строго угнута функція така, що . Таблиця-I демонструє створені узгоджені функції втрат Баєса для деяких прикладів і . Зверніть увагу, що функції втрат Savage і Tangent не є опуклими. Виявилося, що такі неопуклі функції втрат корисні для боротьби з промахами в класифікації. Для всіх функцій втрат, породжених з (2), апостеріорну ймовірність можна знайти за допомогою функції зворотного звʼязку як . Функції втрат, де апостеріорна ймовірність може бути відновлена за допомогою інветнованого зв'язку, називаються власними функціями втрат.
Назва функції втрат | ||||
---|---|---|---|---|
Експоненціальна | ||||
Логістична | ||||
Квадратна | ||||
Savage | ||||
Tangent |
Єдиний мінімізатор очікуваного ризику, , пов'язаний з вищезгаданими функціями втрат, можна безпосередньо знайти з рівняння (1) і показати, що він дорівнює відповідній . Це справедливо навіть для неопуклих функцій втрат і означає, що алгоритми на основі градієнтного спуску, такі як [en], можна використовувати для побудови мінімізатора.
Власні функції втрат, маржа втрат та регуляризація
Для власних функцій втрат маржу можна визначити як і показати, що вона безпосередньо пов'язана з властивостями регуляризації класифікатора. Зокрема, функція втрат з більшою маржою збільшує регуляризацію і дає кращі оцінки апостеріорної ймовірності. Наприклад, маржа втрат може бути збільшена для логістичних функцій втрат шляхом введення параметра і визначення функції як , де менший збільшує маржу втрат. Показано, що це прямо еквівалентно зменшенню швидкості навчання при [en] де зменшення параметру покращує регуляризацію посиленого класифікатора. Теорія чітко дає зрозуміти, що використання швидкості навчання зумовлює появу корректної формули для отримання апостеріорної ймовірності .
На закінчення, обравши функцію втрат з більшою маржою (меншим ), ми збільшуємо регуляризацію та покращуємо наші оцінки апостеріорної ймовірності, що, у свою чергу, покращує криву ROC кінцевого класифікатора.
Квадратична функція втрат
Хоча квадратична функція втрат частіше використовується в регресії, її можна переписати як функцію і використовувати для класифікації. Квадратичну функцію можна створити за допомогою (2) і Таблиці-I наступним чином
Функція квадратичних втрат є як опуклою, так і гладкою. Однак, квадратична функція втрат має тенденцію надмірно штрафувати промахи, що призводить до повільніших показників збіжності (що стосується складності вибірки) порівняно з функціями логістичних або шарнірних втрат. Крім того, функції, які дають високі значення для деяких будуть погано працювати з функцією квадратичних втрат, оскільки високі значення будуть суворо каратися, незалежно від того, чи співпадають ознаки у і .
Перевага функції квадратичних втрат полягає в тому, що її структура піддається легкій перехресній перевірці параметрів регуляризації. Спеціально для регуляризації Тихонова можна вирішити задачу для параметра регуляризації, використовуючи перехресну перевірку без виключення, за той самий час, що й для вирішення однієї проблеми.
Мінімізатор для квадратичної функції втрат можна знайти безпосередньо з рівняння (1) як
Логістична функція втрат
Логістична функція втрат може бути отримана за допомогою (2) та таблиці-I наступним чином
Логістична функція втрат є опуклою і зростає лінійно для від'ємних значень, що робить її менш чутливою до викидів. Логістичні втрати використовуються в [en].
Мінімізатор для логістичної функції втрат можна знайти безпосередньо з рівняння (1) як
Ця функція не визначена, коли або (що прямує до ∞ і −∞ відповідно), але передбачає плавну криву, яка зростає, коли росте і дорівнює 0, коли
Легко перевірити, що логістична функція втрат та функція втрат від двійково перехресної ентропії (Log втрата) насправді однакові (до множення на константу ). Функція втрат від перехресної ентропії тісно пов'язана з розходженням Кульбака–Лейблера між емпіричним і прогнозованим розподілом. Перехресні втрати ентропії є широко розповсюдженими у сучасних глибоких нейронних мережах.
Експоненціальна функція втрат
Експоненціальну функцію втрат можна згенерувати за допомогою (2) та таблиці-I наступним чином
Експоненціальна функція втрат є опуклою і зростає експоненціально для негативних значень, що робить її більш чутливою до викидів. Експоненціальна функція втрат використовується в [en].
Мінімізатор для експоненціальної функції втрат можна безпосередньо знайти з рівняння (1) як
Функція втрат Savage
Функцію втрат Savage можна отримати за допомогою (2) та таблиці-I наступним чином
Функція втрат Savage є квазіопуклою і обмеженою для великих від'ємних значень, що робить її менш чутливою до викидів. Функція втрат Savage була використана для [en] та в алгоритмі SavageBoost.
Мінімізатор для функції втрат Savage можна безпосередньо знайти з рівняння (1) як
Функція втрат Tangent
Тангенсну функцію втрат можна отримати за допомогою (2) та таблиці-I наступним чином
Тангенсна функція втрат є квазіопуклою і обмеженою для великих від'ємних значень, що робить її менш чутливою до викидів. Цікаво, що тангенсна функція втрат також накладає обмежене покарання на точки, які були класифіковані як «занадто правильні». Це може допомогти у запобіганні перенавчанню набору даних. Тангенсна функція втрат використовується для [en], алгоритму TangentBoost та Alternating Decision Forests.
Мінімізатор для тангенсної функції втрат можна безпосередньо знайти з рівняння (1) як
Завісна функція втрат
Завісна функція втрат визначається за допомогою , де — [en] функції.
Завісна функція втрат забезпечує відносно жорстку, опуклу верхню межу для характеристичної функції 0–1. Зокрема, завісна функція втрат дорівнює характеристичній функції 0–1, коли і . Крім того, емпірична мінімізація ризику цієї втрати еквівалентна класичному формулюванню для методу опорного вектора (SVM). Правильно класифіковані точки, що лежать за межами мержі опорних векторів, не штрафуються, тоді як точки в межах границь або на неправильній стороні гіперплощини штрафуються лінійно порівняно з їх відстанню до правильної межі.
Хоча завісна функція втрат є як опуклою, так і безперервною, вона не є гладкою (не диференційованою) при . Отже, вона не може використовуватися з методами градієнтного спуску або методами стохастичного градієнтного спуску, які покладаються на диференційованість по всій області. Проте завісна функція втрат має субградієнт на , що дозволяє використовувати субградієнтні методи спуску. SVM, які використовують завісну функцію втрат, також можна вирішити за допомогою квадратичного програмування .
Мінімізатор для завісної функції втрат визначається як
коли , що відповідає характеристичній функції 0–1. Цей висновок робить завісну функція втрат досить привабливою, оскільки можна встановити межі як різницю між очікуваним ризиком та знаком завісної функції втрат. Завісну функція втрат не можна отримати з (2), оскільки не є оберненою.
Узагальнена плавна завісна функція втрат
Узагальнена плавна завісна функція втрат з параметром визначається як
де
Вона монотонно зростає і досягає 0, коли .
Див. також
- [en]
Примітки
- Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). Are Loss Functions All the Same? (PDF). Neural Computation. 16 (5): 1063—1076. doi:10.1162/089976604773135104. PMID 15070510.
- Shen, Yi (2005), Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, процитовано 6 грудня 2014
- Rosasco, Lorenzo; Poggio, Tomaso (2014), A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, т. Manuscript
- Piyush, Rai (13 вересня 2011), Support Vector Machines (Contd.), Classification Loss Functions and Regularizers (PDF), Utah CS5350/6350: Machine Learning, процитовано 4 травня 2021
- Ramanan, Deva (27 лютого 2008), Lecture 14 (PDF), UCI ICS273A: Machine Learning, процитовано 6 грудня 2014
- Bartlett, Peter L.; Jordan, Michael I.; Mcauliffe, Jon D. (2006). Convexity, Classification, and Risk Bounds. Journal of the American Statistical Association. 101 (473): 138—156. doi:10.1198/016214505000000907. ISSN 0162-1459. JSTOR 30047445.
- Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). On the Design of Loss Functions for Classification: Theory, Robustness to Outliers, and SavageBoost (PDF). Proceedings of the 21st International Conference on Neural Information Processing Systems. NIPS'08. USA: Curran Associates Inc.: 1049—1056. ISBN .
- Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (September 2009). On robustness of on-line boosting - a competitive study. 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops: 1362—1369. doi:10.1109/ICCVW.2009.5457451. ISBN .
- Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). A View of Margin Losses as Regularizers of Probability Estimates. Journal of Machine Learning Research. 16 (85): 2751—2795. ISSN 1533-7928.
- Rifkin, Ryan M.; Lippert, Ross A. (1 травня 2007), Notes on Regularized Least Squares (PDF), MIT Computer Science and Artificial Intelligence Laboratory
- Masnadi-Shirazi, H.; Mahadevan, V.; Vasconcelos, N. (June 2010). On the design of robust classifiers for computer vision. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition: 779—786. doi:10.1109/CVPR.2010.5540136. ISBN .
- Schulter, S.; Wohlhart, P.; Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (June 2013). Alternating Decision Forests. 2013 IEEE Conference on Computer Vision and Pattern Recognition: 508—515. doi:10.1109/CVPR.2013.72. ISBN .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U mashinnomu navchanni ta matematichnij optimizaciyi funkciyi vtrat dlya klasifikaciyi ye obchislyuvalnimi funkciyami vtrat sho predstavlyayut cinu splachenu za netochnist prognoziv u zadachah klasifikaciyi potribno identifikuvati do yakoyi kategoriyi nalezhit konkretne sposterezhennya Bayesovi funkciyi vtrat funciya vtrat 0 1 sirij funciya vtrat Sevidzha zelenij logistichna funkciya vtrat pomaranchevij eksponencialna funkciya vtrat fioletovij tangensna funkciya vtrat korichnevij kvadratichna funkciya vtrat sinij Dano X displaystyle mathcal X yak prostir usih mozhlivih vhidnih danih zazvichaj X R d displaystyle mathcal X subset mathbb R d i Y 1 1 displaystyle mathcal Y 1 1 yak nabir mitok mozhlivih vihidnih danih tipovoyu metoyu algoritmiv klasifikaciyi ye poshuk funkciyi f X R displaystyle f mathcal X mapsto mathbb R yaka najkrashe prognozuye znachennya mitki y displaystyle y dlya zadanogo vhodu x displaystyle vec x Odnak cherez nepovnu informaciyu nayavnist shumu pid chas vimiryuvannya abo jmovirnisni skladovi procesu yakij doslidzhuyetsya mozhlivo dlya odnogo i togo zh samogo x displaystyle vec x mati yak peredbachennya rizni y displaystyle y V rezultati metoyu navchannya ye minimizaciya ochikuvanih vtrat takozh vidomih yak rizik viznachenih yak I f X Y V f x y p x y d x d y displaystyle I f displaystyle int mathcal X times mathcal Y V f vec x y p vec x y d vec x dy de V f x y displaystyle V f vec x y zadana funkciya vtrat i p x y displaystyle p vec x y funkciya gustini jmovirnosti procesu yaka generuye dani Ekvivalentno cyu funkciyu mozhna zapisati yak p x y p y x p x displaystyle p vec x y p y mid vec x p vec x U ramkah klasifikaciyi chasto vikoristovuyut funkciyi vtrat traktovani viklyuchno v terminah dobutku spravzhnoyi mitki y displaystyle y na peredbachenu mitku f x displaystyle f vec x Otzhe yih mozhna viznachiti yak funkciyu lishe odniyeyi zminnoyi y y f x displaystyle upsilon yf vec x takim chinom V f x y ϕ y f x ϕ y displaystyle V f vec x y phi yf vec x phi upsilon z pravilno obranoyu funkciyeyu ϕ R R displaystyle phi mathbb R to mathbb R Voni nazivayutsya funkciyami vtrat na osnovi marzhi margin based loss functions Vibir funkciyi vtrat na osnovi marzhi pririvnyuyetsya do viboru ϕ displaystyle phi Obrannya funkciyi vtrat u cij strukturi vplivaye na optimalnu f ϕ displaystyle f phi yaka minimizuye ochikuvanij rizik U razi binarnoyi klasifikaciyi mozhna sprostiti rozrahunok ochikuvanogo riziku za dopomogoyu zaznachenogo vishe integralu Zokrema I f X Y V f x y p x y d x d y X Y ϕ y f x p y x p x d y d x X ϕ f x p 1 x ϕ f x p 1 x p x d x X ϕ f x p 1 x ϕ f x 1 p 1 x p x d x displaystyle begin aligned I f amp int mathcal X times mathcal Y V f vec x y p vec x y d vec x dy 6pt amp int mathcal X int mathcal Y phi yf vec x p y mid vec x p vec x dy d vec x 6pt amp int mathcal X phi f vec x p 1 mid vec x phi f vec x p 1 mid vec x p vec x d vec x 6pt amp int mathcal X phi f vec x p 1 mid vec x phi f vec x 1 p 1 mid vec x p vec x d vec x end aligned Druga rivnist viplivaye z opisanih vishe vlastivostej Tretya rivnist viplivaye z togo faktu sho 1 i 1 ye yedino mozhlivimi znachennyami dlya y displaystyle y a chetverte za rahunok p 1 x 1 p 1 x displaystyle p 1 mid x 1 p 1 mid x Viraz u duzhkah ϕ f x p 1 x ϕ f x 1 p 1 x displaystyle phi f vec x p 1 mid vec x phi f vec x 1 p 1 mid vec x vidomij yak ochikuvanij rizik Dlya minimizatora I f displaystyle I f mozhna virishiti problemu vzyavshi funkcionalnu pohidnu vid ostannoyi rivnosti vidnosno f displaystyle f pri comu vstanoviti pohidnu rivnoyu 0 Ce prizvede do rivnyannya ϕ f f h ϕ f f 1 h 0 1 displaystyle frac partial phi f partial f eta frac partial phi f partial f 1 eta 0 1 sho takozh ye ekvivalentnim vstanovlennyu pohidnoyi vid umovnogo riziku rivnoyu nulyu Vrahovuyuchi binarnu prirodu klasifikaciyi prirodnim vidborom dlya funkciyi vtrat pripuskayuchi odnakovu vartist hibno pozitivnogo ta hibno negativnogo bude funkciya vtrat 0 1 harakteristichna funkciya 0 1 Vona prijmaye znachennya 0 yaksho prognozovana klasifikaciya dorivnyuye klasifikaciyi istinnogo klasu abo 1 yaksho prognozovana klasifikaciya ne vidpovidaye istinnomu klasu Cej vibir modelyuyetsya za formuloyu V f x y H y f x displaystyle V f vec x y H yf vec x de H displaystyle H poznachaye stupinchastu funkciyu Gevisajda Odnak cya funkciya vtrat ye neopukloyu i negladkoyu i poshuk optimalnogo rishennya ye NP skladnoyu kombinatornoyu zadacheyu optimizaciyi Yak rezultat krashe rozglyanuti surogatni funkciyi vtrat yaki pidhodyat dlya chasto vzhivanih algoritmiv navchannya oskilki voni mayut i opukli i gladki vlastivosti Na dodatok do yih obchislyuvalnoyi kerovanosti mozhna pokazati sho virishennya problemi navchannya z vikoristannyam cih surogatnih funkcij vtrat dozvolyayut vidnoviti faktichne virishennya vihidnoyi problemi klasifikaciyi Deyaki z cih surogativ opisani nizhche Na praktici rozpodil jmovirnostej p x y displaystyle p vec x y ye nevidomim Otzhe vikoristovuyuchi navchalnij nabir z n displaystyle n nezalezhnih ta odnakovo rozpodilenih tochok vibirki S x 1 y 1 x n y n displaystyle S vec x 1 y 1 dots vec x n y n vzyatih z prostoru elementarnih podij mi pragnemo minimizuvati empirichnij rizik I S f 1 n i 1 n V f x i y i displaystyle I S f frac 1 n sum i 1 n V f vec x i y i yak nepryamij pokaznik ochikuvanogo riziku Div statistichnu teoriyu navchannya dlya bilsh detalnogo opisu Uzgodzhenist BayesaVikoristovuyuchi teoremu Bayesa mozhna pokazati sho optimalne f 0 1 displaystyle f 0 1 tobto te sho minimizuye ochikuvanij rizik pov yazanij iz 0 1 vtratoyu realizuye pravilo optimalnogo rishennya Bajyesa dlya problemi binarnoyi klasifikaciyi ta maye formu f 0 1 x 1 if p 1 x gt p 1 x 0 if p 1 x p 1 x 1 if p 1 x lt p 1 x displaystyle f 0 1 vec x begin cases 1 amp text if p 1 mid vec x gt p 1 mid vec x 0 amp text if p 1 mid vec x p 1 mid vec x 1 amp text if p 1 mid vec x lt p 1 mid vec x end cases Kazhut sho funkciya vtrat ye kalibrovanoyu za klasifikaciyeyu abo uzgodzhenoyu za Bayesom yaksho yiyi optimalne f ϕ displaystyle f phi ye takim sho f 0 1 x sgn f ϕ x displaystyle f 0 1 vec x operatorname sgn f phi vec x i takim chinom ye optimalnim za pravilom Bayesa Uzgodzhena funkciya vtrat Bayesa dozvolyaye nam znajti funkciyu optimalnogo rishennya Bayesa f ϕ displaystyle f phi shlyahom bezposerednoyi minimizaciyi ochikuvanogo riziku i bez neobhidnosti yavnogo modelyuvannya funkcij gustini jmovirnosti Dlya opukloyi funkciyi vtrat marzhi ϕ y displaystyle phi upsilon mozhna pokazati sho ϕ y displaystyle phi upsilon ye uzgodzhenoyu za Bayesom todi i tilki todi koli vona diferencijovana v 0 i ϕ 0 lt 0 displaystyle phi 0 lt 0 Prote cej rezultat ne viklyuchaye isnuvannya neopuklih ta uzgodzhenih za Bajyesom funkcij vtrat Bilsh zagalnij rezultat stverdzhuye sho uzgodzheni funkciyi vtrat Bayesa mozhna stvoriti za dopomogoyu nastupnoyi formulyuvannya ϕ v C f 1 v 1 f 1 v C f 1 v 2 displaystyle phi v C f 1 v 1 f 1 v C f 1 v 2 de f h 0 h 1 displaystyle f eta 0 leq eta leq 1 bud yaka invertovana funkciya taka sho f 1 v 1 f 1 v displaystyle f 1 v 1 f 1 v i C h displaystyle C eta bud yaka diferencijovana strogo ugnuta funkciya taka sho C h C 1 h displaystyle C eta C 1 eta Tablicya I demonstruye stvoreni uzgodzheni funkciyi vtrat Bayesa dlya deyakih prikladiv C h displaystyle C eta i f 1 v displaystyle f 1 v Zvernit uvagu sho funkciyi vtrat Savage i Tangent ne ye opuklimi Viyavilosya sho taki neopukli funkciyi vtrat korisni dlya borotbi z promahami v klasifikaciyi Dlya vsih funkcij vtrat porodzhenih z 2 aposteriornu jmovirnist p y 1 x displaystyle p y 1 vec x mozhna znajti za dopomogoyu funkciyi zvorotnogo zvʼyazku yak p y 1 x h f 1 v displaystyle p y 1 vec x eta f 1 v Funkciyi vtrat de aposteriorna jmovirnist mozhe buti vidnovlena za dopomogoyu invetnovanogo zv yazku nazivayutsya vlasnimi funkciyami vtrat Tablicya I Nazva funkciyi vtrat ϕ v displaystyle phi v C h displaystyle C eta f 1 v displaystyle f 1 v f h displaystyle f eta Eksponencialna e v displaystyle e v 2 h 1 h displaystyle 2 sqrt eta 1 eta e 2 v 1 e 2 v displaystyle frac e 2v 1 e 2v 1 2 log h 1 h displaystyle frac 1 2 log frac eta 1 eta Logistichna 1 log 2 log 1 e v displaystyle frac 1 log 2 log 1 e v 1 log 2 h log h 1 h log 1 h displaystyle frac 1 log 2 eta log eta 1 eta log 1 eta e v 1 e v displaystyle frac e v 1 e v log h 1 h displaystyle log frac eta 1 eta Kvadratna 1 v 2 displaystyle 1 v 2 4 h 1 h displaystyle 4 eta 1 eta 1 2 v 1 displaystyle frac 1 2 v 1 2 h 1 displaystyle 2 eta 1 Savage 1 1 e v 2 displaystyle frac 1 1 e v 2 h 1 h displaystyle eta 1 eta e v 1 e v displaystyle frac e v 1 e v log h 1 h displaystyle log frac eta 1 eta Tangent 2 arctan v 1 2 displaystyle 2 arctan v 1 2 4 h 1 h displaystyle 4 eta 1 eta arctan v 1 2 displaystyle arctan v frac 1 2 tan h 1 2 displaystyle tan eta frac 1 2 Yedinij minimizator ochikuvanogo riziku f ϕ displaystyle f phi pov yazanij z vishezgadanimi funkciyami vtrat mozhna bezposeredno znajti z rivnyannya 1 i pokazati sho vin dorivnyuye vidpovidnij f h displaystyle f eta Ce spravedlivo navit dlya neopuklih funkcij vtrat i oznachaye sho algoritmi na osnovi gradiyentnogo spusku taki yak en mozhna vikoristovuvati dlya pobudovi minimizatora Vlasni funkciyi vtrat marzha vtrat ta regulyarizaciya Chervonij standartna logistichna vtrata g 1 m 2 displaystyle gamma 1 mu 2 i Sinij pidvishena marzha u logistichnij vtrati g 0 2 displaystyle gamma 0 2 Dlya vlasnih funkcij vtrat marzhu mozhna viznachiti yak m ϕ ϕ 0 ϕ 0 displaystyle mu phi frac phi 0 phi 0 i pokazati sho vona bezposeredno pov yazana z vlastivostyami regulyarizaciyi klasifikatora Zokrema funkciya vtrat z bilshoyu marzhoyu zbilshuye regulyarizaciyu i daye krashi ocinki aposteriornoyi jmovirnosti Napriklad marzha vtrat mozhe buti zbilshena dlya logistichnih funkcij vtrat shlyahom vvedennya g displaystyle gamma parametra i viznachennya funkciyi yak 1 g log 1 e g v displaystyle frac 1 gamma log 1 e gamma v de menshij 0 lt g lt 1 displaystyle 0 lt gamma lt 1 zbilshuye marzhu vtrat Pokazano sho ce pryamo ekvivalentno zmenshennyu shvidkosti navchannya pri en F m x F m 1 x g h m x displaystyle F m x F m 1 x gamma h m x de zmenshennya parametru g displaystyle gamma pokrashuye regulyarizaciyu posilenogo klasifikatora Teoriya chitko daye zrozumiti sho vikoristannya shvidkosti navchannya g displaystyle gamma zumovlyuye poyavu korrektnoyi formuli dlya otrimannya aposteriornoyi jmovirnosti h f 1 g F x displaystyle eta f 1 gamma F x Na zakinchennya obravshi funkciyu vtrat z bilshoyu marzhoyu menshim g displaystyle gamma mi zbilshuyemo regulyarizaciyu ta pokrashuyemo nashi ocinki aposteriornoyi jmovirnosti sho u svoyu chergu pokrashuye krivu ROC kincevogo klasifikatora Kvadratichna funkciya vtratHocha kvadratichna funkciya vtrat chastishe vikoristovuyetsya v regresiyi yiyi mozhna perepisati yak funkciyu ϕ y f x displaystyle phi yf vec x i vikoristovuvati dlya klasifikaciyi Kvadratichnu funkciyu mozhna stvoriti za dopomogoyu 2 i Tablici I nastupnim chinom ϕ v C f 1 v 1 f 1 v C f 1 v 4 1 2 v 1 1 1 2 v 1 1 1 2 v 1 4 8 1 2 v 1 1 v 2 displaystyle phi v C f 1 v 1 f 1 v C f 1 v 4 frac 1 2 v 1 1 frac 1 2 v 1 1 frac 1 2 v 1 4 8 frac 1 2 v 1 1 v 2 Funkciya kvadratichnih vtrat ye yak opukloyu tak i gladkoyu Odnak kvadratichna funkciya vtrat maye tendenciyu nadmirno shtrafuvati promahi sho prizvodit do povilnishih pokaznikiv zbizhnosti sho stosuyetsya skladnosti vibirki porivnyano z funkciyami logistichnih abo sharnirnih vtrat Krim togo funkciyi yaki dayut visoki znachennya f x displaystyle f vec x dlya deyakih x X displaystyle x in X budut pogano pracyuvati z funkciyeyu kvadratichnih vtrat oskilki visoki znachennya y f x displaystyle yf vec x budut suvoro karatisya nezalezhno vid togo chi spivpadayut oznaki u y displaystyle y i f x displaystyle f vec x Perevaga funkciyi kvadratichnih vtrat polyagaye v tomu sho yiyi struktura piddayetsya legkij perehresnij perevirci parametriv regulyarizaciyi Specialno dlya regulyarizaciyi Tihonova mozhna virishiti zadachu dlya parametra regulyarizaciyi vikoristovuyuchi perehresnu perevirku bez viklyuchennya za toj samij chas sho j dlya virishennya odniyeyi problemi Minimizator I f displaystyle I f dlya kvadratichnoyi funkciyi vtrat mozhna znajti bezposeredno z rivnyannya 1 yak f Square 2 h 1 2 p 1 x 1 displaystyle f text Square 2 eta 1 2p 1 mid x 1 Logistichna funkciya vtratLogistichna funkciya vtrat mozhe buti otrimana za dopomogoyu 2 ta tablici I nastupnim chinom ϕ v C f 1 v 1 f 1 v C f 1 v 1 log 2 e v 1 e v log e v 1 e v 1 e v 1 e v log 1 e v 1 e v 1 e v 1 e v 1 log 2 log e v 1 e v 1 e v 1 e v 1 log 2 log 1 e v displaystyle begin aligned phi v amp C f 1 v left 1 f 1 v right C left f 1 v right amp frac 1 log 2 left frac e v 1 e v log frac e v 1 e v left 1 frac e v 1 e v right log left 1 frac e v 1 e v right right left 1 frac e v 1 e v right left frac 1 log 2 log left frac frac e v 1 e v 1 frac e v 1 e v right right amp frac 1 log 2 log 1 e v end aligned Logistichna funkciya vtrat ye opukloyu i zrostaye linijno dlya vid yemnih znachen sho robit yiyi mensh chutlivoyu do vikidiv Logistichni vtrati vikoristovuyutsya v en Minimizator I f displaystyle I f dlya logistichnoyi funkciyi vtrat mozhna znajti bezposeredno z rivnyannya 1 yak f Logistic log h 1 h log p 1 x 1 p 1 x displaystyle f text Logistic log left frac eta 1 eta right log left frac p 1 mid x 1 p 1 mid x right Cya funkciya ne viznachena koli p 1 x 1 displaystyle p 1 mid x 1 abo p 1 x 0 displaystyle p 1 mid x 0 sho pryamuye do i vidpovidno ale peredbachaye plavnu krivu yaka zrostaye koli p 1 x displaystyle p 1 mid x roste i dorivnyuye 0 koli p 1 x 0 5 displaystyle p 1 mid x 0 5 Legko pereviriti sho logistichna funkciya vtrat ta funkciya vtrat vid dvijkovo perehresnoyi entropiyi Log vtrata naspravdi odnakovi do mnozhennya na konstantu 1 log 2 displaystyle frac 1 log 2 Funkciya vtrat vid perehresnoyi entropiyi tisno pov yazana z rozhodzhennyam Kulbaka Lejblera mizh empirichnim i prognozovanim rozpodilom Perehresni vtrati entropiyi ye shiroko rozpovsyudzhenimi u suchasnih glibokih nejronnih merezhah Eksponencialna funkciya vtratEksponencialnu funkciyu vtrat mozhna zgeneruvati za dopomogoyu 2 ta tablici I nastupnim chinom ϕ v C f 1 v 1 f 1 v C f 1 v 2 e 2 v 1 e 2 v 1 e 2 v 1 e 2 v 1 e 2 v 1 e 2 v 1 2 e 2 v 1 e 2 v e 2 v 1 e 2 v 1 e 2 v 1 e 2 v e v displaystyle phi v C f 1 v 1 f 1 v C f 1 v 2 sqrt frac e 2v 1 e 2v 1 frac e 2v 1 e 2v 1 frac e 2v 1 e 2v frac 1 frac 2e 2v 1 e 2v sqrt frac e 2v 1 e 2v 1 frac e 2v 1 e 2v e v Eksponencialna funkciya vtrat ye opukloyu i zrostaye eksponencialno dlya negativnih znachen sho robit yiyi bilsh chutlivoyu do vikidiv Eksponencialna funkciya vtrat vikoristovuyetsya v en Minimizator I f displaystyle I f dlya eksponencialnoyi funkciyi vtrat mozhna bezposeredno znajti z rivnyannya 1 yak f Exp 1 2 log h 1 h 1 2 log p 1 x 1 p 1 x displaystyle f text Exp frac 1 2 log left frac eta 1 eta right frac 1 2 log left frac p 1 mid x 1 p 1 mid x right Funkciya vtrat SavageFunkciyu vtrat Savage mozhna otrimati za dopomogoyu 2 ta tablici I nastupnim chinom ϕ v C f 1 v 1 f 1 v C f 1 v e v 1 e v 1 e v 1 e v 1 e v 1 e v 1 2 e v 1 e v 1 1 e v 2 displaystyle phi v C f 1 v 1 f 1 v C f 1 v frac e v 1 e v 1 frac e v 1 e v 1 frac e v 1 e v 1 frac 2e v 1 e v frac 1 1 e v 2 Funkciya vtrat Savage ye kvaziopukloyu i obmezhenoyu dlya velikih vid yemnih znachen sho robit yiyi mensh chutlivoyu do vikidiv Funkciya vtrat Savage bula vikoristana dlya en ta v algoritmi SavageBoost Minimizator I f displaystyle I f dlya funkciyi vtrat Savage mozhna bezposeredno znajti z rivnyannya 1 yak f Savage log h 1 h log p 1 x 1 p 1 x displaystyle f text Savage log left frac eta 1 eta right log left frac p 1 mid x 1 p 1 mid x right Funkciya vtrat TangentTangensnu funkciyu vtrat mozhna otrimati za dopomogoyu 2 ta tablici I nastupnim chinom ϕ v C f 1 v 1 f 1 v C f 1 v 4 arctan v 1 2 1 arctan v 1 2 1 arctan v 1 2 4 8 arctan v 1 2 2 arctan v 1 2 displaystyle begin aligned phi v amp C f 1 v 1 f 1 v C f 1 v 4 arctan v frac 1 2 1 arctan v frac 1 2 1 arctan v frac 1 2 4 8 arctan v frac 1 2 amp 2 arctan v 1 2 end aligned Tangensna funkciya vtrat ye kvaziopukloyu i obmezhenoyu dlya velikih vid yemnih znachen sho robit yiyi mensh chutlivoyu do vikidiv Cikavo sho tangensna funkciya vtrat takozh nakladaye obmezhene pokarannya na tochki yaki buli klasifikovani yak zanadto pravilni Ce mozhe dopomogti u zapobiganni perenavchannyu naboru danih Tangensna funkciya vtrat vikoristovuyetsya dlya en algoritmu TangentBoost ta Alternating Decision Forests Minimizator I f displaystyle I f dlya tangensnoyi funkciyi vtrat mozhna bezposeredno znajti z rivnyannya 1 yak f Tangent tan h 1 2 tan p 1 x 1 2 displaystyle f text Tangent tan eta frac 1 2 tan p 1 mid x frac 1 2 Zavisna funkciya vtratDokladnishe Zavisni vtrati Zavisna funkciya vtrat viznachayetsya za dopomogoyu ϕ y max 0 1 y 1 y displaystyle phi upsilon max 0 1 upsilon 1 upsilon de a max 0 a displaystyle a max 0 a en funkciyi V f x y max 0 1 y f x 1 y f x displaystyle V f vec x y max 0 1 yf vec x 1 yf vec x Zavisna funkciya vtrat zabezpechuye vidnosno zhorstku opuklu verhnyu mezhu dlya harakteristichnoyi funkciyi 0 1 Zokrema zavisna funkciya vtrat dorivnyuye harakteristichnij funkciyi 0 1 koli sgn f x y displaystyle operatorname sgn f vec x y i y f x 1 displaystyle yf vec x geqslant 1 Krim togo empirichna minimizaciya riziku ciyeyi vtrati ekvivalentna klasichnomu formulyuvannyu dlya metodu opornogo vektora SVM Pravilno klasifikovani tochki sho lezhat za mezhami merzhi opornih vektoriv ne shtrafuyutsya todi yak tochki v mezhah granic abo na nepravilnij storoni giperploshini shtrafuyutsya linijno porivnyano z yih vidstannyu do pravilnoyi mezhi Hocha zavisna funkciya vtrat ye yak opukloyu tak i bezperervnoyu vona ne ye gladkoyu ne diferencijovanoyu pri y f x 1 displaystyle yf vec x 1 Otzhe vona ne mozhe vikoristovuvatisya z metodami gradiyentnogo spusku abo metodami stohastichnogo gradiyentnogo spusku yaki pokladayutsya na diferencijovanist po vsij oblasti Prote zavisna funkciya vtrat maye subgradiyent na y f x 1 displaystyle yf vec x 1 sho dozvolyaye vikoristovuvati subgradiyentni metodi spusku SVM yaki vikoristovuyut zavisnu funkciyu vtrat takozh mozhna virishiti za dopomogoyu kvadratichnogo programuvannya Minimizator I f displaystyle I f dlya zavisnoyi funkciyi vtrat viznachayetsya yak f Hinge x 1 if p 1 x gt p 1 x 1 if p 1 x lt p 1 x displaystyle f text Hinge vec x begin cases 1 amp text if p 1 mid vec x gt p 1 mid vec x 1 amp text if p 1 mid vec x lt p 1 mid vec x end cases koli p 1 x 0 5 displaystyle p 1 mid x neq 0 5 sho vidpovidaye harakteristichnij funkciyi 0 1 Cej visnovok robit zavisnu funkciya vtrat dosit privablivoyu oskilki mozhna vstanoviti mezhi yak riznicyu mizh ochikuvanim rizikom ta znakom zavisnoyi funkciyi vtrat Zavisnu funkciya vtrat ne mozhna otrimati z 2 oskilki f Hinge displaystyle f text Hinge ne ye obernenoyu Uzagalnena plavna zavisna funkciya vtratUzagalnena plavna zavisna funkciya vtrat z parametrom a displaystyle alpha viznachayetsya yak f a z a a 1 z if z 0 1 a 1 z a 1 z a a 1 if 0 lt z lt 1 0 if z 1 displaystyle f alpha z begin cases frac alpha alpha 1 z amp text if z leqslant 0 frac 1 alpha 1 z alpha 1 z frac alpha alpha 1 amp text if 0 lt z lt 1 0 amp text if z geqslant 1 end cases de z y f x displaystyle z yf vec x Vona monotonno zrostaye i dosyagaye 0 koli z 1 displaystyle z 1 Div takozh en PrimitkiRosasco L De Vito E D Caponnetto A Piana M Verri A 2004 Are Loss Functions All the Same PDF Neural Computation 16 5 1063 1076 doi 10 1162 089976604773135104 PMID 15070510 Shen Yi 2005 Loss Functions For Binary Classification and Class Probability Estimation PDF University of Pennsylvania procitovano 6 grudnya 2014 Rosasco Lorenzo Poggio Tomaso 2014 A Regularization Tour of Machine Learning MIT 9 520 Lectures Notes t Manuscript Piyush Rai 13 veresnya 2011 Support Vector Machines Contd Classification Loss Functions and Regularizers PDF Utah CS5350 6350 Machine Learning procitovano 4 travnya 2021 Ramanan Deva 27 lyutogo 2008 Lecture 14 PDF UCI ICS273A Machine Learning procitovano 6 grudnya 2014 Bartlett Peter L Jordan Michael I Mcauliffe Jon D 2006 Convexity Classification and Risk Bounds Journal of the American Statistical Association 101 473 138 156 doi 10 1198 016214505000000907 ISSN 0162 1459 JSTOR 30047445 Masnadi Shirazi Hamed Vasconcelos Nuno 2008 On the Design of Loss Functions for Classification Theory Robustness to Outliers and SavageBoost PDF Proceedings of the 21st International Conference on Neural Information Processing Systems NIPS 08 USA Curran Associates Inc 1049 1056 ISBN 9781605609492 Leistner C Saffari A Roth P M Bischof H September 2009 On robustness of on line boosting a competitive study 2009 IEEE 12th International Conference on Computer Vision Workshops ICCV Workshops 1362 1369 doi 10 1109 ICCVW 2009 5457451 ISBN 978 1 4244 4442 7 Vasconcelos Nuno Masnadi Shirazi Hamed 2015 A View of Margin Losses as Regularizers of Probability Estimates Journal of Machine Learning Research 16 85 2751 2795 ISSN 1533 7928 Rifkin Ryan M Lippert Ross A 1 travnya 2007 Notes on Regularized Least Squares PDF MIT Computer Science and Artificial Intelligence Laboratory Masnadi Shirazi H Mahadevan V Vasconcelos N June 2010 On the design of robust classifiers for computer vision 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition 779 786 doi 10 1109 CVPR 2010 5540136 ISBN 978 1 4244 6984 0 Schulter S Wohlhart P Leistner C Saffari A Roth P M Bischof H June 2013 Alternating Decision Forests 2013 IEEE Conference on Computer Vision and Pattern Recognition 508 515 doi 10 1109 CVPR 2013 72 ISBN 978 0 7695 4989 7