Завісні втрати (англ. hinge loss) у машинному навчанні — це функція втрат, яка використовується для навчання класифікаторів. Завісні втрати використовують для максимальної розділової класифікації, здебільшого для опорних векторних машин (ОВМ). Для поміченого виходу t = ±1 та оцінки класифікатора y, завісна втрата передбачення y визначається як
Варто зауважити, що тут y є «сирим» значенням функції прийняття рішення у класифікаторі, а не міткою класу. Наприклад, в лінійних ОВМ , де є параметрами гіперплощини та — точка, яку потрібно класифікувати.
Зрозуміло, що коли t та y мають однаковий знак (що означає, що y вказує на правильний клас) та , тоді завісні втрати , а коли вони мають різні знаки, то зростає лінійно від y (одностороння помилка). На рисунку пояснюється, чому завісні втрати дають кращу оцінку втрат ніж (функція нуль-один).
Узагальнення
Хоч є поширеною практикою узагальнення бінарних ОВМ на [en] ОВМ у режимі один з усіх або один в один, також можливе узагальнення з використанням завісної функції. Було запропоновано декілька різних багатокласових завісних втрат. Наприклад, Крамер та Сінгер дали таке визначення у випадку лінійного класифікатора:
Тут — мітка цілі, та — параметри моделі.
Вестон і Воткінс дали подібне визначення, але з сумою замість максимуму:
При структуровому передбачуванні завісні втрати можуть бути поширені на структуровані вихідні простори. [en] з масштабуванням розділення використовує наступний варіант, де w позначає параметри ОВМ, y — передбачення ОВМ, φ додає функцію ознак та Δ є відстанню Геммінга:
Оптимізація
Завісні втрати є опуклою функцією, отже, опуклі оптимізатори, що використовуються у машинному навчанні, можуть працювати з ними. Це не диференційовна функція, проте вона має субградієнт відносно параметрів моделі w лінійної ОВМ з функцією оцінки , який буде
Однак, оскільки похідна завісних втрат при невизначена, то гладкий варіант, запропонований Ренні та Сребро, є більш бажаним для оптимізації
або квадратично гладкий
запропонований Чангом. Модифікований варіант [en] є спеціальним випадком цієї функції втрат з , зокрема, .
Примітки
- Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). (PDF). Neural Computation. 16 (5): 1063—1076. doi:10.1162/089976604773135104. PMID 15070510. Архів оригіналу (PDF) за 11 січня 2020. Процитовано 8 серпня 2018.
- Duan, K. B.; Keerthi, S. S. (2005). Which Is the Best Multiclass SVM Method? An Empirical Study. (PDF). . Т. 3541. с. 278—285. doi:10.1007/11494683_28. ISBN . Архів оригіналу (PDF) за 31 жовтня 2012. Процитовано 8 серпня 2018.
- Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). (PDF). J. Machine Learning Research. 17: 1—32. Архів оригіналу (PDF) за 5 травня 2018. Процитовано 8 серпня 2018.
- Crammer, Koby; Singer, Yoram (2001). (PDF). J. Machine Learning Research. 2: 265—292. Архів оригіналу (PDF) за 29 серпня 2015. Процитовано 8 серпня 2018.
- Moore, Robert C.; DeNero, John (2011). (PDF). Proc. Symp. on Machine Learning in Speech and Language Processing. Архів оригіналу (PDF) за 28 серпня 2017. Процитовано 8 серпня 2018.
- Weston, Jason; Watkins, Chris (1999). (PDF). European Symposium on Artificial Neural Networks. Архів оригіналу (PDF) за 5 травня 2018. Процитовано 8 серпня 2018.
- Rennie, Jason D. M.; Srebro, Nathan (2005). (PDF). Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling. Архів оригіналу (PDF) за 6 листопада 2015. Процитовано 9 червня 2019.
- Zhang, Tong (2004). (PDF). ICML. Архів оригіналу (PDF) за 4 червня 2019. Процитовано 9 червня 2019.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Zavisni vtrati angl hinge loss u mashinnomu navchanni ce funkciya vtrat yaka vikoristovuyetsya dlya navchannya klasifikatoriv Zavisni vtrati vikoristovuyut dlya maksimalnoyi rozdilovoyi klasifikaciyi zdebilshogo dlya opornih vektornih mashin OVM Dlya pomichenogo vihodu t 1 ta ocinki klasifikatora y zavisna vtrata peredbachennya y viznachayetsya yakGrafik zavisnih vtrat sinij vimiryuyetsya vertikalno proti 0 1 vtrat vimiryuyetsya vertikalno ne pravilna klasifikaciya poznachena zelenim y lt 0 dlya t 1 ta zminna y vimiryuyetsya gorizontalno Bachimo sho zavisni vtrati shtrafuyut peredbachennya y lt 1 vidpovidno do rozdilennya v opornij vetornij mashini ℓ y max 0 1 t y displaystyle ell y max 0 1 t cdot y Varto zauvazhiti sho tut y ye sirim znachennyam funkciyi prijnyattya rishennya u klasifikatori a ne mitkoyu klasu Napriklad v linijnih OVM y w x b displaystyle y mathbf w cdot mathbf x b de w b displaystyle mathbf w b ye parametrami giperploshini ta x displaystyle mathbf x tochka yaku potribno klasifikuvati Zrozumilo sho koli t ta y mayut odnakovij znak sho oznachaye sho y vkazuye na pravilnij klas ta y 1 displaystyle y geqslant 1 todi zavisni vtrati ℓ y 0 displaystyle ell y 0 a koli voni mayut rizni znaki to ℓ y displaystyle ell y zrostaye linijno vid y odnostoronnya pomilka Na risunku poyasnyuyetsya chomu zavisni vtrati dayut krashu ocinku vtrat nizh funkciya nul odin UzagalnennyaHoch ye poshirenoyu praktikoyu uzagalnennya binarnih OVM na en OVM u rezhimi odin z usih abo odin v odin takozh mozhlive uzagalnennya z vikoristannyam zavisnoyi funkciyi Bulo zaproponovano dekilka riznih bagatoklasovih zavisnih vtrat Napriklad Kramer ta Singer dali take viznachennya u vipadku linijnogo klasifikatora ℓ y max 0 1 maxt ywtx wyx displaystyle ell y max 0 1 max t neq y mathbf w t mathbf x mathbf w y mathbf x Tut y displaystyle y mitka cili wt displaystyle mathbf w t ta wy displaystyle mathbf w y parametri modeli Veston i Votkins dali podibne viznachennya ale z sumoyu zamist maksimumu ℓ y t ymax 0 1 wtx wyx displaystyle ell y sum t neq y max 0 1 mathbf w t mathbf x mathbf w y mathbf x Pri strukturovomu peredbachuvanni zavisni vtrati mozhut buti poshireni na strukturovani vihidni prostori en z masshtabuvannyam rozdilennya vikoristovuye nastupnij variant de w poznachaye parametri OVM y peredbachennya OVM f dodaye funkciyu oznak ta D ye vidstannyu Gemminga ℓ y max 0 D y t w ϕ x y w ϕ x t max 0 maxy Y D y t w ϕ x y w ϕ x t displaystyle begin aligned ell mathbf y amp max 0 Delta mathbf y mathbf t langle mathbf w phi mathbf x mathbf y rangle langle mathbf w phi mathbf x mathbf t rangle amp max 0 max y in mathcal Y left Delta mathbf y mathbf t langle mathbf w phi mathbf x mathbf y rangle right langle mathbf w phi mathbf x mathbf t rangle end aligned OptimizaciyaZavisni vtrati ye opukloyu funkciyeyu otzhe opukli optimizatori sho vikoristovuyutsya u mashinnomu navchanni mozhut pracyuvati z nimi Ce ne diferencijovna funkciya prote vona maye subgradiyent vidnosno parametriv modeli w linijnoyi OVM z funkciyeyu ocinki y w x displaystyle y mathbf w cdot mathbf x yakij bude ℓ wi t xiif t y lt 10otherwise displaystyle frac partial ell partial w i begin cases t cdot x i amp text if t cdot y lt 1 0 amp text otherwise end cases Kreslennya troh variantiv zavisnih vtrat yak funkciyi z ty zvichajnij variant sinij jogo kvadrat zelenij i kuskovo gladkij variant Renni ta Srebro chervonij Odnak oskilki pohidna zavisnih vtrat pri ty 1 displaystyle ty 1 neviznachena to gladkij variant zaproponovanij Renni ta Srebro ye bilsh bazhanim dlya optimizaciyi ℓ y 12 tyif ty 0 12 1 ty 2if 0 lt ty 1 0if 1 ty displaystyle ell y begin cases frac 1 2 ty amp text if ty leq 0 frac 1 2 1 ty 2 amp text if 0 lt ty leq 1 0 amp text if 1 leq ty end cases abo kvadratichno gladkij ℓg y 12gmax 0 1 ty 2if ty 1 g1 g2 tyotherwise displaystyle ell gamma y begin cases frac 1 2 gamma max 0 1 ty 2 amp text if ty geq 1 gamma 1 frac gamma 2 ty amp text otherwise end cases zaproponovanij Changom Modifikovanij variant en L displaystyle L ye specialnim vipadkom ciyeyi funkciyi vtrat z g 2 displaystyle gamma 2 zokrema L t y 4ℓ2 y displaystyle L t y 4 ell 2 y PrimitkiRosasco L De Vito E D Caponnetto A Piana M Verri A 2004 PDF Neural Computation 16 5 1063 1076 doi 10 1162 089976604773135104 PMID 15070510 Arhiv originalu PDF za 11 sichnya 2020 Procitovano 8 serpnya 2018 Duan K B Keerthi S S 2005 Which Is the Best Multiclass SVM Method An Empirical Study PDF T 3541 s 278 285 doi 10 1007 11494683 28 ISBN 978 3 540 26306 7 Arhiv originalu PDF za 31 zhovtnya 2012 Procitovano 8 serpnya 2018 Dogan Urun Glasmachers Tobias Igel Christian 2016 PDF J Machine Learning Research 17 1 32 Arhiv originalu PDF za 5 travnya 2018 Procitovano 8 serpnya 2018 Crammer Koby Singer Yoram 2001 PDF J Machine Learning Research 2 265 292 Arhiv originalu PDF za 29 serpnya 2015 Procitovano 8 serpnya 2018 Moore Robert C DeNero John 2011 PDF Proc Symp on Machine Learning in Speech and Language Processing Arhiv originalu PDF za 28 serpnya 2017 Procitovano 8 serpnya 2018 Weston Jason Watkins Chris 1999 PDF European Symposium on Artificial Neural Networks Arhiv originalu PDF za 5 travnya 2018 Procitovano 8 serpnya 2018 Rennie Jason D M Srebro Nathan 2005 PDF Proc IJCAI Multidisciplinary Workshop on Advances in Preference Handling Arhiv originalu PDF za 6 listopada 2015 Procitovano 9 chervnya 2019 Zhang Tong 2004 PDF ICML Arhiv originalu PDF za 4 chervnya 2019 Procitovano 9 chervnya 2019