Функція активації, або передавальна функція (англ. activation function, також excitation function, squashing function, transfer function) штучного нейрона — залежність вихідного сигналу штучного нейрона від вхідного.
Зазвичай передавальна функція відображає дійсні числа на інтервал або .
Більшість видів нейронних мереж для функції активації використовують сигмоїди. ADALINE і самоорганізаційні карти використовують лінійні функції активації, а (радіально базисні мережі) використовують радіальні базисні функції.
Математично доведено, що тришаровий перцептрон з використанням сигмоїдної функції активації може апроксимувати будь-яку неперервну функцію з довільною точністю ((Теорема Цибенка)).
Метод зворотного поширення помилки вимагає, щоб функція активації була неперервною, нелінійною, монотонно зростаючою, і диференційовною.
В задачі [en] класифікації нейрони останнього шару зазвичай використовують (softmax) як функцію активації.
У хемометриці — функція, яка використовується в методі нейронної сітки для перетворення у вузлах вхідних даних з будь-якої області значень (зокрема неперервних) у чітко окреслений ряд значень (напр., в 0 чи 1).
Порівняння передавальних функцій
Деякі бажані властивості передавальної функції включають:
- Нелінійна — коли передавальна функція нелінійна, то, як доведено, двошарова нейронна мережа є універсальною апроксимацією функцій. Тотожна передавальна функція не має такої властивості. Коли декілька шарів використовують тотожну передавальну функцію, тоді вся мережа еквівалентна одношаровій моделі.
- Неперервна диференційовність — ця властивість бажана (RELU не є неперервно диференційовною і має неоднозначне рішення для оптимізації заснованій на градієнті) для використання методів оптимізації заснованих на градієнті. Передавальна функція двійковий крок не диференційовна у 0, але диференційовна в усіх інших значення, що є проблемою для методів заснованих на градієнті.
- Область визначення.
- Монотонність.
- Гладка функція з монотонною похідною.
- Наближення до тотожної функції в початку координат.
У наступній таблиці порівнюються деякі передавальні функції від однієї змінної x з попереднього шару:
Назва | Графік | Рівняння | Похідна (по x) | Область | Порядок гладкості | Монотонність | Монотонність похідної | Наближення до Тотожної функції в початку координат |
---|---|---|---|---|---|---|---|---|
Тотожна | Так | Так | Так | |||||
Двійковий крок | Так | Ні | Ні | |||||
Логістична (a.k.a. Сігмоїда або М'який крок) | [1] | Так | Ні | Ні | ||||
TanH | Так | Ні | Так | |||||
ArcTan | Так | Ні | Так | |||||
Softsign | Так | Ні | Так | |||||
Inverse square root unit (ISRU) | Так | Ні | Так | |||||
Випрямлена лінійна (Rectified linear unit, ReLU) | Так | Так | Ні | |||||
Leaky rectified linear unit (Leaky ReLU) | Так | Так | Ні | |||||
Parameteric rectified linear unit (PReLU) | [2] | Так ↔ | Так | Так ↔ | ||||
Randomized leaky rectified linear unit (RReLU) | [3] | Так | Так | Ні | ||||
Exponential linear unit (ELU) | Так ↔ | Так ↔ | Так ↔ | |||||
Scaled exponential linear unit (SELU) | з та | Так | Ні | Ні | ||||
S-shaped rectified linear activation unit (SReLU) | are parameters. | Ні | Ні | Ні | ||||
Inverse square root linear unit (ISRLU) | Так | Так | Так | |||||
Adaptive piecewise linear (APL) | [4] | Ні | Ні | Ні | ||||
SoftPlus | Так | Так | Ні | |||||
Bent identity | Так | Так | Так | |||||
(Sigmoid-weighted linear unit (SiLU)) (a.k.a. Swish) | [5] | [6] | Ні | Ні | Ні | |||
SoftExponential | Так | Так | Так ↔ | |||||
Синусоїда | Ні | Ні | Так | |||||
Sinc | Ні | Ні | Ні | |||||
Гауссіан | Ні | Ні | Ні |
- ↑ Тут, H це функція Гевісайда.
- ↑ α є стохастичною змінною вибраною з нормального розподілу під час навчання і зафіксована як очікуване значення розподілу до часу тестування.
- ↑ ↑ ↑ Тут, — логістична функція.
- ↑ виконується для всього інтервалу.
Наступна таблиця містить передавальні функції від декількох змінних:
Назва | Рівняння | Похідна(ні) | Область | Порядок гладкості |
---|---|---|---|---|
(Softmax) | for i = 1, …, J | [7] | ||
Maxout |
↑ Тут, — символ Кронекера.
Див. також
Примітки
- Ke-Lin Du, Swamy M. N. S., Neural Networks and Statistical Learning, Springer-Verlag London, 2014 DOI:10.1007/978-1-4471-5571-3
- James Keller, Derong Liu, and David Fogel: Fundamentals of computational intelligence: neural networks, fuzzy systems, and evolutionary computation: John Wiley and Sons, 2016, 378 pp,
- Lionel Tarassenko, 2 - Mathematical background for neural computing, In Guide to Neural Computing Applications, Butterworth-Heinemann, New York, 1998, Pages 5-35, , http://doi.org/10.1016/B978-034070589-6/50002-6.
- Anthony, Martin (2001). 1. Artificial Neural Networks: 1—8. doi:10.1137/1.9780898718539.
- Michael Nielsen. Neural Networks and Deep Learning.
- Stegemann, J. A.; N. R. Buenfeld (2014). A Glossary of Basic Neural Network Terminology for Regression Problems. Neural Computing & Applications. 8 (4): 290—296. doi:10.1007/s005210050034. ISSN 0941-0643.
- Глосарій термінів з хімії // Й. Опейда, О. Швайка. Ін-т фізико-органічної хімії та вуглехімії ім. Л. М. Литвиненка НАН України, Донецький національний університет. — Донецьк: Вебер, 2008. — 758 с. —
- Cybenko, G.V. (2006). Approximation by Superpositions of a Sigmoidal function. У van Schuppen, Jan H. (ред.). . Springer International. с. 303—314.
- Snyman, Jan (3 березня 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN .
- Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). . Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. Архів оригіналу за 25 вересня 2018.
- Glorot, Xavier; Bengio, Yoshua (2010), (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS’10), Society for Artificial Intelligence and Statistics, архів оригіналу (PDF) за 1 квітня 2017
- Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (9 листопада 2017). Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs). arXiv:1710.09967 [cs.LG].
- Nair, Vinod; Hinton, Geoffrey E. (2010), Rectified Linear Units Improve Restricted Boltzmann Machines, 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, с. 807—814, ISBN
- Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). (PDF). Proc. ICML. 30 (1). Архів оригіналу (PDF) за 3 січня 2017. Процитовано 2 січня 2017.
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6 лютого 2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. arXiv:1502.01852 [cs.CV].
- Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (4 травня 2015). Empirical Evaluation of Rectified Activations in Convolutional Network. arXiv:1505.00853 [cs.LG].
- Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23 листопада 2015). Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). arXiv:1511.07289 [cs.LG].
- Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (8 червня 2017). Self-Normalizing Neural Networks. arXiv:1706.02515 [cs.LG].
- Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (22 грудня 2015). Deep Learning with S-shaped Rectified Linear Activation Units. arXiv:1512.07030 [cs.CV].
- Forest Agostinelli; Matthew Hoffman; Peter Sadowski; Pierre Baldi (21 грудня 2014). Learning Activation Functions to Improve Deep Neural Networks. arXiv:1412.6830 [cs.NE].
- Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). Deep sparse rectifier neural networks (PDF). International Conference on Artificial Intelligence and Statistics.
- Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning
- Searching for Activation Functions
- Godfrey, Luke B.; Gashler, Michael S. (3 лютого 2016). A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 1602: 481—486. arXiv:1602.01321. Bibcode:2016arXiv160201321G.
- Gashler, Michael S.; Ashmore, Stephen C. (9 травня 2014). Training Deep Fourier Neural Networks To Fit Time-Series Data. arXiv:1405.2262 [cs.NE].
- Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (18 лютого 2013). Maxout Networks. JMLR WCP. 28 (3): 1319—1327. arXiv:1302.4389. Bibcode:2013arXiv1302.4389G.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет