Масштабування ознак — метод нормалізації діапазону незалежних змінних або ознак даних. В опрацьовуванні даних він також відомий як нормалізація даних і зазвичай виконується під час попереднього опрацьовування.
Мотивація
Через те, що діапазони значень сирих даних значно різняться, у деяких алгоритмах машинного навчання цільові функції не працюватимуть правильно без [en]. Наприклад, багато класифікаторів обчислюють евклідову відстань між двома точками. Якщо одна з ознак має великий діапазон значень, то відстань сильно залежатиме саме від цієї ознаки. Тому, діапазони всіх ознак треба нормалізувати так, аби внесок у результатну відстань кожної ознаки був приблизно пропорційним.
Інша причина застосування масштабування ознак полягає в тому, що градієнтний спуск збігається набагато швидше з використанням масштабування ознак, ніж без нього.
Також важливо застосовувати масштабування ознак, якщо регуляризація використовується як частина функції втрат (таким чином, коефіцієнти штрафуються належним чином).
Примітки
- Ioffe, Sergey; Christian Szegedy (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arXiv:1502.03167 [cs.LG].
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Masshtabuvannya oznak metod normalizaciyi diapazonu nezalezhnih zminnih abo oznak danih V opracovuvanni danih vin takozh vidomij yak normalizaciya danih i zazvichaj vikonuyetsya pid chas poperednogo opracovuvannya MotivaciyaCherez te sho diapazoni znachen sirih danih znachno riznyatsya u deyakih algoritmah mashinnogo navchannya cilovi funkciyi ne pracyuvatimut pravilno bez en Napriklad bagato klasifikatoriv obchislyuyut evklidovu vidstan mizh dvoma tochkami Yaksho odna z oznak maye velikij diapazon znachen to vidstan silno zalezhatime same vid ciyeyi oznaki Tomu diapazoni vsih oznak treba normalizuvati tak abi vnesok u rezultatnu vidstan kozhnoyi oznaki buv priblizno proporcijnim Insha prichina zastosuvannya masshtabuvannya oznak polyagaye v tomu sho gradiyentnij spusk zbigayetsya nabagato shvidshe z vikoristannyam masshtabuvannya oznak nizh bez nogo Takozh vazhlivo zastosovuvati masshtabuvannya oznak yaksho regulyarizaciya vikoristovuyetsya yak chastina funkciyi vtrat takim chinom koeficiyenti shtrafuyutsya nalezhnim chinom PrimitkiIoffe Sergey Christian Szegedy 2015 Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift arXiv 1502 03167 cs LG