В математиці, функція Softmax, або ж нормована експоненційна функціялогістичної функції, що «стискує» K-вимірний вектор із довільним значеннями компонент до K-вимірного вектора з дійсними значеннями компонент в області [0, 1] що в сумі дають одиницю. Функція задається наступним чином:
— це узагальнення- for j = 1, …, K.
В теорії ймовірності, результат софтмакс-функції може використовуватись для того щоб представити категорійний розподіл, тобто розподіл ймовірності при K різних можливих варіантах. Функція софтмакс використовується в різних методах [en], таких, як наприклад [en] (також відома як софтмакс-регресія), багатокласовий лінійний розділювальний аналіз, наївний баєсів класифікатор, і штучні нейронні мережі.
Інтерпретації
Згладжений arg max
Назва «softmax» вводить в оману — функція не є згладженим максимумом (гладке наближення до функції максимуму), а є скоріше гладким наближенням до функції arg max — аргумента максимального значення функції. Насправді, термін «softmax» також використовується для тісно пов'язаної [en], яка є згладженим максимумом. З цієї причини дехто вважає кращим більш точний термін «softargmax», але термін «softmax» є прийнятим у машинному навчанні. У цьому розділі використовується термін «softargmax», щоб підкреслити цю інтерпретацію.
Теорія ймовірностей
У теорії ймовірностей значення функції softargmax можна використовувати для представлення категорійного розподілу, тобто розподілу ймовірностей для K різних можливих результатів.
Статистична механіка
У статистичній механіці функція Softargmax відома як (або розподіл Гіббса): набір індексів — мікростани системи; входи — енергії цих станів; знаменник відомий як статистична сума, часто позначається як Z ; а коефіцієнт β називається термодинамічна бета, або обернена температура.
Застосування
Функція softmax використовується в різних [en], таких як: [en] (також відома як softmax регресія) , багатокласовий лінійний дискримінантний аналіз, наївних баєсівих класифікаторах та штучних нейронних мережах. Зокрема, у мультиноміальній логістичній регресії та лінійному дискримінантному аналізі вхідними даними функції є результати K різних лінійних функцій, а прогнозована ймовірність для j-го класу з урахуванням вектора вибірки x і вектора ваги w є:
Це можна розглядати як композицію K лінійних функцій і функції softmax (де позначає внутрішній добуток і ). Операція еквівалентна застосуванню лінійного оператора, визначеного за допомогою до векторів , перетворюючи таким чином вхідний, можливо, багатовимірний, вектор аргументів на вектор у K -вимірному просторі .
Нейронні мережі
Функція softmax часто використовується в останньому шарі класифікаторів на основі нейронних мереж. Такі мережі зазвичай навчаються за допомогою перехресної ентропії, що дає нелінійний варіант поліноміальної логістичної регресії.
Оскільки функція переводить вектор і певний індекс в дійсне число, то похідна повинна враховувати ще й індекс:
Цей вираз є симетричним відносно індексів та , тому він також може бути виражений як
Тут для простоти використовується символ Кронекера (похідна від сигмоїдної функції виражається через саму функцію).
Якщо функція масштабується за допомогою параметра , то ці вирази потрібно помножити на .
Див. [en] для ймовірнісної моделі, яка використовує функцію активації softmax.
Навчання з підкріпленням
У сфері навчання з підкріпленням функція softmax може використовуватися для перетворення значень у ймовірності дії. Зазвичай використовується наступна функція:
де цінність дії відповідає очікуваній винагороді за наступну дію , а називається параметром температури (натяк на статистичну механіку). Для високих температур (), всі дії мають майже однакову ймовірність, а чим нижча температура, тим більше очікувана винагорода впливає на ймовірність обирання дії. Для низької температури (), ймовірність дії з найбільшою очікуваною винагородою наближається до 1.
Властивості
Геометрично функція softmax відображає векторний простір на межі -вимірного симплекса, зменшуючи розмірність на одиницю (діапазоном значень стає -вимірний симплекс в -вимірному просторі), через лінійне обмеження, що сума елементів вихідного вектору дорівнює 1, що означає, що він лежить на гіперплощині.
По головній діагоналі softmax стає просто рівномірним розподілом, : рівні ваги дають рівні ймовірності.
Загалом, softmax є інваріантним щодо зсуву на одне й те саме значення в кожній координаті: додавання до вектору вхідних значень дає , оскільки softmax множить кожен показник на один і той же коефіцієнт, (тому що ), тобто співвідношення не змінюється:
Геометрично, softmax є постійним уздовж діагоналей: це відповідає тому, що вихідне значення softmax не залежить від зсуву вхідних значень. Можна нормалізувати вхідні бали, якщо сума дорівнює нулю (відняти середнє: , де ), тоді softmax відображає гіперплощину точок, сума яких дорівнює нулю, , до відкритого симплекса додатних значень, сума яких дорівнює 1: , аналогічно тому, як експонента відображає 0 на 1, .
Але softmax не є інваріантним відносно масштабування. Наприклад, але
Функція softmax — це градієнт функції [en] — згладженого максимуму.
де функція LogSumExp визначена як .
Приклад
Якщо ми візьмемо вектор вхідних значень [1, 2, 3, 4, 1, 2, 3], то softmax цього вектору буде дорівнювати [0,024, 0,064, 0,175, 0,475, 0,024, 0,064, 0,175]. Результат застосування функції має найбільшу вагу там, де «4» у векторі вхідних даних. Це і є найчастішою метою застосування функції — відокремлення найбільших значень і придушення значень, що значно нижчі за максимальне. Але варто зауважити: softmax не є інваріантним відносно масштабування, тому якби вхідні дані були [0,1, 0,2, 0,3, 0,4, 0,1, 0,2, 0,3] (сума чого становить 1,6), softmax став би [0,125, 0,138, 0,153, 0,169, 0,153 0,125, 0,138, 0,153]. Це показує, що для значень від 0 до 1 softmax фактично деакцентує максимальне значення (зверніть увагу, що 0,169 не тільки менше 0,475, це також менше, ніж початкове відношення 0,4/1,6=0,25).
Коду мовою Python для обчислення для цього прикладу:
>>> import numpy as np >>> a = [1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0] >>> np.exp(a) / np.sum(np.exp(a)) array([0.02364054, 0.06426166, 0.1746813, 0.474833, 0.02364054, 0.06426166, 0.1746813])
Примітки
- Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer.
- ai-faq What is a softmax activation function? [ 12 листопада 2016 у Wayback Machine.]
- Goodfellow, Bengio та Courville, 2016, с. 183—184.
- LeCun, Yann; Chopra, Sumit; Hadsell, Raia; Ranzato, Marc’Aurelio; Huang, Fu Jie (2006). A Tutorial on Energy-Based Learning. У Gökhan Bakır (ред.). . Neural Information Processing series. MIT Press. ISBN . Архів оригіналу за 15 липня 2018. Процитовано 2 грудня 2021.
- Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN .
- . ufldl.stanford.edu. Архів оригіналу за 28 листопада 2021. Процитовано 5 грудня 2021.
- Sutton, R. S. and Barto A. G. Reinforcement Learning: An Introduction. The MIT Press, Cambridge, MA, 1998. Softmax Action Selection [ 7 січня 2022 у Wayback Machine.]
В іншому мовному розділі є повніша стаття Softmax function(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської.
|
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
V matematici funkciya Softmax abo zh normovana eksponencijna funkciya 198 ce uzagalnennya logistichnoyi funkciyi sho stiskuye K vimirnij vektor z displaystyle mathbf z iz dovilnim znachennyami komponent do K vimirnogo vektora s z displaystyle sigma mathbf z z dijsnimi znachennyami komponent v oblasti 0 1 sho v sumi dayut odinicyu Funkciya zadayetsya nastupnim chinom s RK 0 1 K displaystyle sigma mathbb R K to 0 1 K s z j ezj k 1Kezk displaystyle sigma mathbf z j frac e z j sum k 1 K e z k for j 1 K V teoriyi jmovirnosti rezultat softmaks funkciyi mozhe vikoristovuvatis dlya togo shob predstaviti kategorijnij rozpodil tobto rozpodil jmovirnosti pri K riznih mozhlivih variantah Funkciya softmaks vikoristovuyetsya v riznih metodah en takih yak napriklad en takozh vidoma yak softmaks regresiya bagatoklasovij linijnij rozdilyuvalnij analiz nayivnij bayesiv klasifikator i shtuchni nejronni merezhi InterpretaciyiZgladzhenij arg max Div takozh Arg max Nazva softmax vvodit v omanu funkciya ne ye zgladzhenim maksimumom gladke nablizhennya do funkciyi maksimumu a ye skorishe gladkim nablizhennyam do funkciyi arg max argumenta maksimalnogo znachennya funkciyi Naspravdi termin softmax takozh vikoristovuyetsya dlya tisno pov yazanoyi en yaka ye zgladzhenim maksimumom Z ciyeyi prichini dehto vvazhaye krashim bilsh tochnij termin softargmax ale termin softmax ye prijnyatim u mashinnomu navchanni U comu rozdili vikoristovuyetsya termin softargmax shob pidkresliti cyu interpretaciyu Teoriya jmovirnostej U teoriyi jmovirnostej znachennya funkciyi softargmax mozhna vikoristovuvati dlya predstavlennya kategorijnogo rozpodilu tobto rozpodilu jmovirnostej dlya K riznih mozhlivih rezultativ Statistichna mehanika U statistichnij mehanici funkciya Softargmax vidoma yak abo rozpodil Gibbsa 7 nabir indeksiv 1 k displaystyle 1 dots k mikrostani sistemi vhodi zi displaystyle z i energiyi cih staniv znamennik vidomij yak statistichna suma chasto poznachayetsya yak Z a koeficiyent b nazivayetsya termodinamichna beta abo obernena temperatura ZastosuvannyaFunkciya softmax vikoristovuyetsya v riznih en takih yak en takozh vidoma yak softmax regresiya 206 209 bagatoklasovij linijnij diskriminantnij analiz nayivnih bayesivih klasifikatorah ta shtuchnih nejronnih merezhah Zokrema u multinomialnij logistichnij regresiyi ta linijnomu diskriminantnomu analizi vhidnimi danimi funkciyi ye rezultati K riznih linijnih funkcij a prognozovana jmovirnist dlya j go klasu z urahuvannyam vektora vibirki x i vektora vagi w ye P y j x exTwj k 1KexTwk displaystyle P y j mid mathbf x frac e mathbf x mathsf T mathbf w j sum k 1 K e mathbf x mathsf T mathbf w k Ce mozhna rozglyadati yak kompoziciyu K linijnih funkcij x xTw1 x xTwK displaystyle mathbf x mapsto mathbf x mathsf T mathbf w 1 ldots mathbf x mapsto mathbf x mathsf T mathbf w K i funkciyi softmax de xTw displaystyle mathbf x mathsf T mathbf w poznachaye vnutrishnij dobutok x displaystyle mathbf x i w displaystyle mathbf w Operaciya ekvivalentna zastosuvannyu linijnogo operatora viznachenogo za dopomogoyu w displaystyle mathbf w do vektoriv x displaystyle mathbf x peretvoryuyuchi takim chinom vhidnij mozhlivo bagatovimirnij vektor argumentiv na vektor u K vimirnomu prostori RK displaystyle mathbb R K Nejronni merezhi Funkciya softmax chasto vikoristovuyetsya v ostannomu shari klasifikatoriv na osnovi nejronnih merezh Taki merezhi zazvichaj navchayutsya za dopomogoyu perehresnoyi entropiyi sho daye nelinijnij variant polinomialnoyi logistichnoyi regresiyi Oskilki funkciya perevodit vektor q displaystyle textbf q i pevnij indeks i displaystyle i v dijsne chislo to pohidna povinna vrahovuvati she j indeks qks q i s q i dik s q k displaystyle frac partial partial q k sigma textbf q i sigma textbf q i delta ik sigma textbf q k Cej viraz ye simetrichnim vidnosno indeksiv i displaystyle i ta k displaystyle k tomu vin takozh mozhe buti virazhenij yak qks q i s q k dik s q i displaystyle frac partial partial q k sigma textbf q i sigma textbf q k delta ik sigma textbf q i Tut dlya prostoti vikoristovuyetsya simvol Kronekera pohidna vid sigmoyidnoyi funkciyi virazhayetsya cherez samu funkciyu Yaksho funkciya masshtabuyetsya za dopomogoyu parametra b displaystyle beta to ci virazi potribno pomnozhiti na b displaystyle beta Div en dlya jmovirnisnoyi modeli yaka vikoristovuye funkciyu aktivaciyi softmax Navchannya z pidkriplennyam U sferi navchannya z pidkriplennyam funkciya softmax mozhe vikoristovuvatisya dlya peretvorennya znachen u jmovirnosti diyi Zazvichaj vikoristovuyetsya nastupna funkciya Pt a exp qt a t i 1nexp qt i t displaystyle P t a frac exp q t a tau sum i 1 n exp q t i tau text de cinnist diyi qt a displaystyle q t a vidpovidaye ochikuvanij vinagorodi za nastupnu diyu a displaystyle a a t displaystyle tau nazivayetsya parametrom temperaturi natyak na statistichnu mehaniku Dlya visokih temperatur t displaystyle tau to infty vsi diyi mayut majzhe odnakovu jmovirnist a chim nizhcha temperatura tim bilshe ochikuvana vinagoroda vplivaye na jmovirnist obirannya diyi Dlya nizkoyi temperaturi t 0 displaystyle tau to 0 jmovirnist diyi z najbilshoyu ochikuvanoyu vinagorodoyu nablizhayetsya do 1 VlastivostiGeometrichno funkciya softmax vidobrazhaye vektornij prostir RK displaystyle mathbb R K na mezhi K 1 displaystyle K 1 vimirnogo simpleksa zmenshuyuchi rozmirnist na odinicyu diapazonom znachen staye K 1 displaystyle K 1 vimirnij simpleks v K displaystyle K vimirnomu prostori cherez linijne obmezhennya sho suma elementiv vihidnogo vektoru dorivnyuye 1 sho oznachaye sho vin lezhit na giperploshini Po golovnij diagonali x x x displaystyle x x dots x softmax staye prosto rivnomirnim rozpodilom 1 n 1 n displaystyle 1 n dots 1 n rivni vagi dayut rivni jmovirnosti Zagalom softmax ye invariantnim shodo zsuvu na odne j te same znachennya v kozhnij koordinati dodavannya c c c displaystyle mathbf c c dots c do vektoru vhidnih znachen z displaystyle mathbf z daye s z c s z displaystyle sigma mathbf z mathbf c sigma mathbf z oskilki softmax mnozhit kozhen pokaznik na odin i toj zhe koeficiyent ec displaystyle e c tomu sho ezi c ezi ec displaystyle e z i c e z i cdot e c tobto spivvidnoshennya ne zminyuyetsya s z c j ezj c k 1Kezk c ezj ec k 1Kezk ec s z j displaystyle sigma mathbf z mathbf c j frac e z j c sum k 1 K e z k c frac e z j cdot e c sum k 1 K e z k cdot e c sigma mathbf z j Geometrichno softmax ye postijnim uzdovzh diagonalej ce vidpovidaye tomu sho vihidne znachennya softmax ne zalezhit vid zsuvu vhidnih znachen Mozhna normalizuvati vhidni bali yaksho suma dorivnyuye nulyu vidnyati serednye c displaystyle mathbf c de c 1n zi textstyle c frac 1 n sum z i todi softmax vidobrazhaye giperploshinu tochok suma yakih dorivnyuye nulyu zi 0 textstyle sum z i 0 do vidkritogo simpleksa dodatnih znachen suma yakih dorivnyuye 1 s z i 1 textstyle sum sigma mathbf z i 1 analogichno tomu yak eksponenta vidobrazhaye 0 na 1 e0 1 displaystyle e 0 1 Ale softmax ne ye invariantnim vidnosno masshtabuvannya Napriklad s 0 1 1 1 e e 1 e displaystyle sigma bigl 0 1 bigr bigl 1 1 e e 1 e bigr ale s 0 2 1 1 e2 e2 1 e2 displaystyle sigma bigl 0 2 bigr bigl 1 1 e 2 e 2 1 e 2 bigr Funkciya softmax ce gradiyent funkciyi en zgladzhenogo maksimumu ziLSE z exp zi j 1Kexp zj s z i for i 1 K z z1 zK RK displaystyle frac partial partial z i operatorname LSE mathbf z frac exp z i sum j 1 K exp z j sigma mathbf z i quad text for i 1 dotsc K quad mathbf z z 1 dotsc z K in mathbb R K de funkciya LogSumExp viznachena yak LSE z1 zn log exp z1 exp zn displaystyle operatorname LSE z 1 dots z n log left exp z 1 cdots exp z n right PrikladYaksho mi vizmemo vektor vhidnih znachen 1 2 3 4 1 2 3 to softmax cogo vektoru bude dorivnyuvati 0 024 0 064 0 175 0 475 0 024 0 064 0 175 Rezultat zastosuvannya funkciyi maye najbilshu vagu tam de 4 u vektori vhidnih danih Ce i ye najchastishoyu metoyu zastosuvannya funkciyi vidokremlennya najbilshih znachen i pridushennya znachen sho znachno nizhchi za maksimalne Ale varto zauvazhiti softmax ne ye invariantnim vidnosno masshtabuvannya tomu yakbi vhidni dani buli 0 1 0 2 0 3 0 4 0 1 0 2 0 3 suma chogo stanovit 1 6 softmax stav bi 0 125 0 138 0 153 0 169 0 153 0 125 0 138 0 153 Ce pokazuye sho dlya znachen vid 0 do 1 softmax faktichno deakcentuye maksimalne znachennya zvernit uvagu sho 0 169 ne tilki menshe 0 475 ce takozh menshe nizh pochatkove vidnoshennya 0 4 1 6 0 25 Kodu movoyu Python dlya obchislennya dlya cogo prikladu gt gt gt import numpy as np gt gt gt a 1 0 2 0 3 0 4 0 1 0 2 0 3 0 gt gt gt np exp a np sum np exp a array 0 02364054 0 06426166 0 1746813 0 474833 0 02364054 0 06426166 0 1746813 PrimitkiBishop Christopher M 2006 Pattern Recognition and Machine Learning Springer ai faq What is a softmax activation function 12 listopada 2016 u Wayback Machine Goodfellow Bengio ta Courville 2016 s 183 184 LeCun Yann Chopra Sumit Hadsell Raia Ranzato Marc Aurelio Huang Fu Jie 2006 A Tutorial on Energy Based Learning U Gokhan Bakir red Neural Information Processing series MIT Press ISBN 978 0 26202617 8 Arhiv originalu za 15 lipnya 2018 Procitovano 2 grudnya 2021 Bishop Christopher M 2006 Pattern Recognition and Machine Learning Springer ISBN 0 387 31073 8 ufldl stanford edu Arhiv originalu za 28 listopada 2021 Procitovano 5 grudnya 2021 Sutton R S and Barto A G Reinforcement Learning An Introduction The MIT Press Cambridge MA 1998 Softmax Action Selection 7 sichnya 2022 u Wayback Machine V inshomu movnomu rozdili ye povnisha stattya Softmax function angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad