Функція активації, передавальна функція або функція збудження (англ. activation function, також excitation function, squashing function, transfer function) штучного нейрона — залежність вихідного сигналу штучного нейрона від вхідного.
Зазвичай передавальна функція відображає дійсні числа на інтервал або .
Більшість видів нейронних мереж для функції активації використовують сигмоїди. ADALINE і самоорганізаційні карти використовують лінійні функції активації, а радіально базисні мережі використовують радіальні базисні функції.
Математично доведено, що тришаровий перцептрон з використанням сигмоїдної функції активації може апроксимувати будь-яку неперервну функцію з довільною точністю (Теорема Цибенка).
Метод зворотного поширення помилки вимагає, щоб функція активації була неперервною, нелінійною, монотонно зростаючою, і диференційовною.
В задачі [en]класифікації нейрони останнього шару зазвичай використовують softmax як функцію активації.
У хемометриці — функція, яка використовується в методі нейронної сітки для перетворення у вузлах вхідних даних з будь-якої області значень (зокрема неперервних) у чітко окреслений ряд значень (напр., в 0 чи 1).
Порівняння передавальних функцій
Деякі бажані властивості передавальної функції включають:
- Нелінійна — коли передавальна функція нелінійна, то, як доведено, двошарова нейронна мережа є універсальною апроксимацією функцій. Тотожна передавальна функція не має такої властивості. Коли декілька шарів використовують тотожну передавальну функцію, тоді вся мережа еквівалентна одношаровій моделі.
- Неперервна диференційовність — ця властивість бажана (RELU не є неперервно диференційовною і має неоднозначне рішення для оптимізації заснованій на градієнті) для використання методів оптимізації заснованих на градієнті. Передавальна функція двійковий крок не диференційовна у 0, але диференційовна в усіх інших значення, що є проблемою для методів заснованих на градієнті.
- Область визначення.
- Монотонність.
- Гладка функція з монотонною похідною.
- Наближення до тотожної функції в початку координат.
У наступній таблиці порівнюються деякі передавальні функції від однієї змінної x з попереднього шару:
Назва | Графік | Рівняння | Похідна (по x) | (Область) | Порядок гладкості | Монотонність | Монотонність похідної | Наближення до Тотожної функції в початку координат |
---|---|---|---|---|---|---|---|---|
Тотожна | Так | Так | Так | |||||
Двійковий крок | Так | Ні | Ні | |||||
Логістична (a.k.a. Сігмоїда або М'який крок) | [1] | Так | Ні | Ні | ||||
(TanH) | Так | Ні | Так | |||||
ArcTan | Так | Ні | Так | |||||
Softsign | Так | Ні | Так | |||||
Inverse square root unit (ISRU) | Так | Ні | Так | |||||
Випрямлена лінійна (Rectified linear unit, ReLU) | Так | Так | Ні | |||||
Leaky rectified linear unit (Leaky ReLU) | Так | Так | Ні | |||||
Parameteric rectified linear unit (PReLU) | [2] | Так ↔ | Так | Так ↔ | ||||
Randomized leaky rectified linear unit (RReLU) | [3] | Так | Так | Ні | ||||
Exponential linear unit (ELU) | Так ↔ | Так ↔ | Так ↔ | |||||
Scaled exponential linear unit (SELU) | з та | Так | Ні | Ні | ||||
S-shaped rectified linear activation unit (SReLU) | are parameters. | Ні | Ні | Ні | ||||
Inverse square root linear unit (ISRLU) | Так | Так | Так | |||||
Adaptive piecewise linear (APL) | [4] | Ні | Ні | Ні | ||||
SoftPlus | Так | Так | Ні | |||||
Bent identity | Так | Так | Так | |||||
Sigmoid-weighted linear unit (SiLU) (a.k.a. Swish) | [5] | [6] | Ні | Ні | Ні | |||
SoftExponential | Так | Так | Так ↔ | |||||
Синусоїда | Ні | Ні | Так | |||||
Sinc | Ні | Ні | Ні | |||||
Гауссіан | Ні | Ні | Ні |
- ↑ Тут, H це функція Гевісайда.
- ↑ α є стохастичною змінною вибраною з нормального розподілу під час навчання і зафіксована як очікуване значення розподілу до часу тестування.
- ↑ ↑ ↑ Тут, — логістична функція.
- ↑ виконується для всього інтервалу.
Наступна таблиця містить передавальні функції від декількох змінних:
Назва | Рівняння | Похідна(ні) | (Область) | Порядок гладкості |
---|---|---|---|---|
Softmax | for i = 1, …, J | [7] | ||
Maxout |
↑ Тут, — символ Кронекера.
Див. також
Примітки
- Ke-Lin Du, Swamy M. N. S., Neural Networks and Statistical Learning, Springer-Verlag London, 2014 DOI:10.1007/978-1-4471-5571-3
- James Keller, Derong Liu, and David Fogel: Fundamentals of computational intelligence: neural networks, fuzzy systems, and evolutionary computation: John Wiley and Sons, 2016, 378 pp,
- Lionel Tarassenko, 2 - Mathematical background for neural computing, In Guide to Neural Computing Applications, Butterworth-Heinemann, New York, 1998, Pages 5-35, , http://doi.org/10.1016/B978-034070589-6/50002-6.
- Anthony, Martin (2001). 1. Artificial Neural Networks: 1—8. doi:10.1137/1.9780898718539.
- Michael Nielsen. Neural Networks and Deep Learning.
- Stegemann, J. A.; N. R. Buenfeld (2014). A Glossary of Basic Neural Network Terminology for Regression Problems. Neural Computing & Applications. 8 (4): 290—296. doi:10.1007/s005210050034. ISSN 0941-0643.
- Глосарій термінів з хімії // Й. Опейда, О. Швайка. Ін-т фізико-органічної хімії та вуглехімії ім. Л. М. Литвиненка НАН України, Донецький національний університет. — Донецьк: Вебер, 2008. — 758 с. —
- Cybenko, G.V. (2006). Approximation by Superpositions of a Sigmoidal function. У van Schuppen, Jan H. (ред.). . Springer International. с. 303—314.
- Snyman, Jan (3 березня 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN .
- Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). . Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. Архів оригіналу за 25 вересня 2018.
- Glorot, Xavier; Bengio, Yoshua (2010), (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS’10), Society for Artificial Intelligence and Statistics, архів оригіналу (PDF) за 1 квітня 2017
- Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (9 листопада 2017). Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs). arXiv:1710.09967 [cs.LG].
- Nair, Vinod; Hinton, Geoffrey E. (2010), Rectified Linear Units Improve Restricted Boltzmann Machines, 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, с. 807—814, ISBN
- Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). (PDF). Proc. ICML. 30 (1). Архів оригіналу (PDF) за 3 січня 2017. Процитовано 2 січня 2017.
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6 лютого 2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. arXiv:1502.01852 [cs.CV].
- Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (4 травня 2015). Empirical Evaluation of Rectified Activations in Convolutional Network. arXiv:1505.00853 [cs.LG].
- Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23 листопада 2015). Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). arXiv:1511.07289 [cs.LG].
- Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (8 червня 2017). Self-Normalizing Neural Networks. arXiv:1706.02515 [cs.LG].
- Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (22 грудня 2015). Deep Learning with S-shaped Rectified Linear Activation Units. arXiv:1512.07030 [cs.CV].
- Forest Agostinelli; Matthew Hoffman; Peter Sadowski; Pierre Baldi (21 грудня 2014). Learning Activation Functions to Improve Deep Neural Networks. arXiv:1412.6830 [cs.NE].
- Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). Deep sparse rectifier neural networks (PDF). International Conference on Artificial Intelligence and Statistics.
- Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning
- Searching for Activation Functions
- Godfrey, Luke B.; Gashler, Michael S. (3 лютого 2016). A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 1602: 481—486. arXiv:1602.01321. Bibcode:2016arXiv160201321G.
- Gashler, Michael S.; Ashmore, Stephen C. (9 травня 2014). Training Deep Fourier Neural Networks To Fit Time-Series Data. arXiv:1405.2262 [cs.NE].
- Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (18 лютого 2013). Maxout Networks. JMLR WCP. 28 (3): 1319—1327. arXiv:1302.4389. Bibcode:2013arXiv1302.4389G.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ne plutati z Peredavalna funkciya Funkciya aktivaciyi peredavalna funkciya abo funkciya zbudzhennya angl activation function takozh excitation function squashing function transfer function shtuchnogo nejrona zalezhnist vihidnogo signalu shtuchnogo nejrona vid vhidnogo Zazvichaj peredavalna funkciya ϕ x displaystyle phi x vidobrazhaye dijsni chisla na interval 1 1 displaystyle 1 1 abo 0 1 displaystyle 0 1 Bilshist vidiv nejronnih merezh dlya funkciyi aktivaciyi vikoristovuyut sigmoyidi ADALINE i samoorganizacijni karti vikoristovuyut linijni funkciyi aktivaciyi a radialno bazisni merezhi vikoristovuyut radialni bazisni funkciyi Matematichno dovedeno sho trisharovij perceptron z vikoristannyam sigmoyidnoyi funkciyi aktivaciyi mozhe aproksimuvati bud yaku neperervnu funkciyu z dovilnoyu tochnistyu Teorema Cibenka Metod zvorotnogo poshirennya pomilki vimagaye shob funkciya aktivaciyi bula neperervnoyu nelinijnoyu monotonno zrostayuchoyu i diferencijovnoyu V zadachi en klasifikaciyi nejroni ostannogo sharu zazvichaj vikoristovuyut softmax yak funkciyu aktivaciyi U hemometrici funkciya yaka vikoristovuyetsya v metodi nejronnoyi sitki dlya peretvorennya u vuzlah vhidnih danih z bud yakoyi oblasti znachen zokrema neperervnih u chitko okreslenij ryad znachen napr v 0 chi 1 Porivnyannya peredavalnih funkcijDeyaki bazhani vlastivosti peredavalnoyi funkciyi vklyuchayut Nelinijna koli peredavalna funkciya nelinijna to yak dovedeno dvosharova nejronna merezha ye universalnoyu aproksimaciyeyu funkcij Totozhna peredavalna funkciya ne maye takoyi vlastivosti Koli dekilka shariv vikoristovuyut totozhnu peredavalnu funkciyu todi vsya merezha ekvivalentna odnosharovij modeli Neperervna diferencijovnist cya vlastivist bazhana RELU ne ye neperervno diferencijovnoyu i maye neodnoznachne rishennya dlya optimizaciyi zasnovanij na gradiyenti dlya vikoristannya metodiv optimizaciyi zasnovanih na gradiyenti Peredavalna funkciya dvijkovij krok ne diferencijovna u 0 ale diferencijovna v usih inshih znachennya sho ye problemoyu dlya metodiv zasnovanih na gradiyenti Oblast viznachennya Monotonnist Gladka funkciya z monotonnoyu pohidnoyu Nablizhennya do totozhnoyi funkciyi f x x displaystyle f x x v pochatku koordinat U nastupnij tablici porivnyuyutsya deyaki peredavalni funkciyi vid odniyeyi zminnoyi x z poperednogo sharu Nazva Grafik Rivnyannya Pohidna po x Oblast Poryadok gladkosti Monotonnist Monotonnist pohidnoyi Nablizhennya do Totozhnoyi funkciyi v pochatku koordinatTotozhna f x x displaystyle f x x f x 1 displaystyle f x 1 displaystyle infty infty C displaystyle C infty Tak Tak TakDvijkovij krok f x 0for x lt 01for x 0 displaystyle f x begin cases 0 amp text for x lt 0 1 amp text for x geqslant 0 end cases f x 0for x 0 for x 0 displaystyle f x begin cases 0 amp text for x neq 0 amp text for x 0 end cases 0 1 displaystyle 0 1 C 1 displaystyle C 1 Tak Ni NiLogistichna a k a Sigmoyida abo M yakij krok f x s x 11 e x displaystyle f x sigma x frac 1 1 e x 1 f x f x 1 f x displaystyle f x f x 1 f x 0 1 displaystyle 0 1 C displaystyle C infty Tak Ni NiTanH f x tanh x ex e x ex e x displaystyle f x tanh x frac e x e x e x e x f x 1 f x 2 displaystyle f x 1 f x 2 1 1 displaystyle 1 1 C displaystyle C infty Tak Ni TakArcTan f x tan 1 x displaystyle f x tan 1 x f x 1x2 1 displaystyle f x frac 1 x 2 1 p2 p2 displaystyle left frac pi 2 frac pi 2 right C displaystyle C infty Tak Ni TakSoftsign f x x1 x displaystyle f x frac x 1 x f x 1 1 x 2 displaystyle f x frac 1 1 x 2 1 1 displaystyle 1 1 C1 displaystyle C 1 Tak Ni TakInverse square root unit ISRU f x x1 ax2 displaystyle f x frac x sqrt 1 alpha x 2 f x 11 ax2 3 displaystyle f x left frac 1 sqrt 1 alpha x 2 right 3 1a 1a displaystyle left frac 1 sqrt alpha frac 1 sqrt alpha right C displaystyle C infty Tak Ni TakVipryamlena linijna Rectified linear unit ReLU f x 0for x lt 0xfor x 0 displaystyle f x begin cases 0 amp text for x lt 0 x amp text for x geqslant 0 end cases f x 0for x lt 01for x 0 displaystyle f x begin cases 0 amp text for x lt 0 1 amp text for x geqslant 0 end cases 0 displaystyle 0 infty C0 displaystyle C 0 Tak Tak NiLeaky rectified linear unit Leaky ReLU f x 0 01xfor x lt 0xfor x 0 displaystyle f x begin cases 0 01x amp text for x lt 0 x amp text for x geqslant 0 end cases f x 0 01for x lt 01for x 0 displaystyle f x begin cases 0 01 amp text for x lt 0 1 amp text for x geqslant 0 end cases displaystyle infty infty C0 displaystyle C 0 Tak Tak NiParameteric rectified linear unit PReLU f a x axfor x lt 0xfor x 0 displaystyle f alpha x begin cases alpha x amp text for x lt 0 x amp text for x geqslant 0 end cases f a x afor x lt 01for x 0 displaystyle f alpha x begin cases alpha amp text for x lt 0 1 amp text for x geqslant 0 end cases displaystyle infty infty 2 C0 displaystyle C 0 Tak a 0 displaystyle alpha geqslant 0 Tak Tak a 1 displaystyle alpha 1 Randomized leaky rectified linear unit RReLU f a x axfor x lt 0xfor x 0 displaystyle f alpha x begin cases alpha x amp text for x lt 0 x amp text for x geqslant 0 end cases 3 f a x afor x lt 01for x 0 displaystyle f alpha x begin cases alpha amp text for x lt 0 1 amp text for x geqslant 0 end cases displaystyle infty infty C0 displaystyle C 0 Tak Tak NiExponential linear unit ELU f a x a ex 1 for x lt 0xfor x 0 displaystyle f alpha x begin cases alpha e x 1 amp text for x lt 0 x amp text for x geqslant 0 end cases f a x f a x afor x lt 01for x 0 displaystyle f alpha x begin cases f alpha x alpha amp text for x lt 0 1 amp text for x geqslant 0 end cases a displaystyle alpha infty C1when a 1C0otherwise displaystyle begin cases C 1 amp text when alpha 1 C 0 amp text otherwise end cases Tak a 0 displaystyle alpha geqslant 0 Tak 0 a 1 displaystyle 0 leqslant alpha leqslant 1 Tak a 1 displaystyle alpha 1 Scaled exponential linear unit SELU f a x l a ex 1 for x lt 0xfor x 0 displaystyle f alpha x lambda begin cases alpha e x 1 amp text for x lt 0 x amp text for x geqslant 0 end cases z l 1 0507 displaystyle lambda 1 0507 ta a 1 67326 displaystyle alpha 1 67326 f a x l a ex for x lt 01for x 0 displaystyle f alpha x lambda begin cases alpha e x amp text for x lt 0 1 amp text for x geqslant 0 end cases la displaystyle lambda alpha infty C0 displaystyle C 0 Tak Ni NiS shaped rectified linear activation unit SReLU ftl al tr ar x tl al x tl for x tlxfor tl lt x lt trtr ar x tr for x tr displaystyle f t l a l t r a r x begin cases t l a l x t l amp text for x leqslant t l x amp text for t l lt x lt t r t r a r x t r amp text for x geqslant t r end cases tl al tr ar displaystyle t l a l t r a r are parameters ftl al tr ar x alfor x tl1for tl lt x lt trarfor x tr displaystyle f t l a l t r a r x begin cases a l amp text for x leqslant t l 1 amp text for t l lt x lt t r a r amp text for x geqslant t r end cases displaystyle infty infty C0 displaystyle C 0 Ni Ni NiInverse square root linear unit ISRLU f x x1 ax2for x lt 0xfor x 0 displaystyle f x begin cases frac x sqrt 1 alpha x 2 amp text for x lt 0 x amp text for x geqslant 0 end cases f x 11 ax2 3for x lt 01for x 0 displaystyle f x begin cases left frac 1 sqrt 1 alpha x 2 right 3 amp text for x lt 0 1 amp text for x geqslant 0 end cases 1a displaystyle left frac 1 sqrt alpha infty right C2 displaystyle C 2 Tak Tak TakAdaptive piecewise linear APL f x max 0 x s 1Saismax 0 x bis displaystyle f x max 0 x sum s 1 S a i s max 0 x b i s f x H x s 1SaisH x bis displaystyle f x H x sum s 1 S a i s H x b i s 4 displaystyle infty infty C0 displaystyle C 0 Ni Ni NiSoftPlus f x ln 1 ex displaystyle f x ln 1 e x f x 11 e x displaystyle f x frac 1 1 e x 0 displaystyle 0 infty C displaystyle C infty Tak Tak NiBent identity f x x2 1 12 x displaystyle f x frac sqrt x 2 1 1 2 x f x x2x2 1 1 displaystyle f x frac x 2 sqrt x 2 1 1 displaystyle infty infty C displaystyle C infty Tak Tak TakSigmoid weighted linear unit SiLU a k a Swish f x x s x displaystyle f x x cdot sigma x 5 f x f x s x 1 f x displaystyle f x f x sigma x 1 f x 6 0 28 displaystyle approx 0 28 infty C displaystyle C infty Ni Ni NiSoftExponential f a x ln 1 a x a afor a lt 0xfor a 0eax 1a afor a gt 0 displaystyle f alpha x begin cases frac ln 1 alpha x alpha alpha amp text for alpha lt 0 x amp text for alpha 0 frac e alpha x 1 alpha alpha amp text for alpha gt 0 end cases f a x 11 a a x for a lt 0eaxfor a 0 displaystyle f alpha x begin cases frac 1 1 alpha alpha x amp text for alpha lt 0 e alpha x amp text for alpha geqslant 0 end cases displaystyle infty infty C displaystyle C infty Tak Tak Tak a 0 displaystyle alpha 0 Sinusoyida f x sin x displaystyle f x sin x f x cos x displaystyle f x cos x 1 1 displaystyle 1 1 C displaystyle C infty Ni Ni TakSinc f x 1for x 0sin x xfor x 0 displaystyle f x begin cases 1 amp text for x 0 frac sin x x amp text for x neq 0 end cases f x 0for x 0cos x x sin x x2for x 0 displaystyle f x begin cases 0 amp text for x 0 frac cos x x frac sin x x 2 amp text for x neq 0 end cases 217234 1 displaystyle approx 217234 1 C displaystyle C infty Ni Ni NiGaussian f x e x2 displaystyle f x e x 2 f x 2xe x2 displaystyle f x 2xe x 2 0 1 displaystyle 0 1 C displaystyle C infty Ni Ni Ni Tut H ce funkciya Gevisajda a ye stohastichnoyu zminnoyu vibranoyu z normalnogo rozpodilu pid chas navchannya i zafiksovana yak ochikuvane znachennya rozpodilu do chasu testuvannya Tut s displaystyle sigma logistichna funkciya a gt 0 displaystyle alpha gt 0 vikonuyetsya dlya vsogo intervalu Nastupna tablicya mistit peredavalni funkciyi vid dekilkoh zminnih Nazva Rivnyannya Pohidna ni Oblast Poryadok gladkostiSoftmax fi x exi j 1Jexj displaystyle f i vec x frac e x i sum j 1 J e x j for i 1 J fi x xj fi x dij fj x displaystyle frac partial f i vec x partial x j f i vec x delta ij f j vec x 7 0 1 displaystyle 0 1 C displaystyle C infty Maxout f x maxixi displaystyle f vec x max i x i f xj 1for j argmaxixi0for j argmaxixi displaystyle frac partial f partial x j begin cases 1 amp text for j underset i operatorname argmax x i 0 amp text for j neq underset i operatorname argmax x i end cases displaystyle infty infty C0 displaystyle C 0 Tut dij displaystyle delta ij simvol Kronekera Div takozhFunkciya vtratPrimitkiKe Lin Du Swamy M N S Neural Networks and Statistical Learning Springer Verlag London 2014 DOI 10 1007 978 1 4471 5571 3 James Keller Derong Liu and David Fogel Fundamentals of computational intelligence neural networks fuzzy systems and evolutionary computation John Wiley and Sons 2016 378 pp ISBN 978 1 110 21434 2 Lionel Tarassenko 2 Mathematical background for neural computing In Guide to Neural Computing Applications Butterworth Heinemann New York 1998 Pages 5 35 ISBN 9780340705896 http doi org 10 1016 B978 034070589 6 50002 6 Anthony Martin 2001 1 Artificial Neural Networks 1 8 doi 10 1137 1 9780898718539 Michael Nielsen Neural Networks and Deep Learning Stegemann J A N R Buenfeld 2014 A Glossary of Basic Neural Network Terminology for Regression Problems Neural Computing amp Applications 8 4 290 296 doi 10 1007 s005210050034 ISSN 0941 0643 Glosarij terminiv z himiyi J Opejda O Shvajka In t fiziko organichnoyi himiyi ta vuglehimiyi im L M Litvinenka NAN Ukrayini Doneckij nacionalnij universitet Doneck Veber 2008 758 s ISBN 978 966 335 206 0 Cybenko G V 2006 Approximation by Superpositions of a Sigmoidal function U van Schuppen Jan H red Springer International s 303 314 Snyman Jan 3 bereznya 2005 Practical Mathematical Optimization An Introduction to Basic Optimization Theory and Classical and New Gradient Based Algorithms Springer Science amp Business Media ISBN 978 0 387 24348 1 Bergstra James Desjardins Guillaume Lamblin Pascal Bengio Yoshua 2009 Departement d Informatique et de Recherche Operationnelle Universite de Montreal Arhiv originalu za 25 veresnya 2018 Glorot Xavier Bengio Yoshua 2010 PDF International Conference on Artificial Intelligence and Statistics AISTATS 10 Society for Artificial Intelligence and Statistics arhiv originalu PDF za 1 kvitnya 2017 Carlile Brad Delamarter Guy Kinney Paul Marti Akiko Whitney Brian 9 listopada 2017 Improving Deep Learning by Inverse Square Root Linear Units ISRLUs arXiv 1710 09967 cs LG Nair Vinod Hinton Geoffrey E 2010 Rectified Linear Units Improve Restricted Boltzmann Machines 27th International Conference on International Conference on Machine Learning ICML 10 USA Omnipress s 807 814 ISBN 9781605589077 Maas Andrew L Hannun Awni Y Ng Andrew Y June 2013 PDF Proc ICML 30 1 Arhiv originalu PDF za 3 sichnya 2017 Procitovano 2 sichnya 2017 He Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 6 lyutogo 2015 Delving Deep into Rectifiers Surpassing Human Level Performance on ImageNet Classification arXiv 1502 01852 cs CV Xu Bing Wang Naiyan Chen Tianqi Li Mu 4 travnya 2015 Empirical Evaluation of Rectified Activations in Convolutional Network arXiv 1505 00853 cs LG Clevert Djork Arne Unterthiner Thomas Hochreiter Sepp 23 listopada 2015 Fast and Accurate Deep Network Learning by Exponential Linear Units ELUs arXiv 1511 07289 cs LG Klambauer Gunter Unterthiner Thomas Mayr Andreas Hochreiter Sepp 8 chervnya 2017 Self Normalizing Neural Networks arXiv 1706 02515 cs LG Jin Xiaojie Xu Chunyan Feng Jiashi Wei Yunchao Xiong Junjun Yan Shuicheng 22 grudnya 2015 Deep Learning with S shaped Rectified Linear Activation Units arXiv 1512 07030 cs CV Forest Agostinelli Matthew Hoffman Peter Sadowski Pierre Baldi 21 grudnya 2014 Learning Activation Functions to Improve Deep Neural Networks arXiv 1412 6830 cs NE Glorot Xavier Bordes Antoine Bengio Yoshua 2011 Deep sparse rectifier neural networks PDF International Conference on Artificial Intelligence and Statistics Sigmoid Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning Searching for Activation Functions Godfrey Luke B Gashler Michael S 3 lyutogo 2016 A continuum among logarithmic linear and exponential functions and its potential to improve generalization in neural networks 7th International Joint Conference on Knowledge Discovery Knowledge Engineering and Knowledge Management KDIR 1602 481 486 arXiv 1602 01321 Bibcode 2016arXiv160201321G Gashler Michael S Ashmore Stephen C 9 travnya 2014 Training Deep Fourier Neural Networks To Fit Time Series Data arXiv 1405 2262 cs NE Goodfellow Ian J Warde Farley David Mirza Mehdi Courville Aaron Bengio Yoshua 18 lyutogo 2013 Maxout Networks JMLR WCP 28 3 1319 1327 arXiv 1302 4389 Bibcode 2013arXiv1302 4389G