Зрі́заний ліні́йний ву́зол, іноді ви́прямлений ліні́йний ву́зол (англ. rectified linear unit, ReLU), або випрямля́ч (англ. rectifier) у контексті штучних нейронних мереж є передавальною функцією, яка визначена таким чином:
- ,
де x вхідне значення нейрона. Вона є аналогом (напівперіодичного випрямляча) у схемотехніці. Ця передавальна функція була запроваджена для динамічних мереж Ганлозером (англ. Hahnloser) та іншими у 2000 році з біологічним підґрунтям та математичним обґрунтуванням. В 2011 році вперше було продемонстровано, як забезпечити краще навчання глибоких мереж, на відміну від передавальних функцій, які широко використовувались до цього, а саме, логістичною функцією (яка була запозичена з теорії ймовірностей; дивись логістична регресія) і виявились більш практичними ніж гіперболічний тангенс. ReLU є, станом на 2018, найбільш популярною передавальною функцією для глибоких нейронних мереж.
Гладке наближення ReLU є гладкою функцією
яка називається softplus-функцією. Похідною softplus є , тобто логістична функція.
ReLU часто використовується при глибокому навчанні в задачах комп'ютерного зору та розпізнавання мовлення.
Варіації
ReLU з шумом
До ReLU можна додати гауссів шум, що дає ReLU з шумом
- , з
ReLU з шумом успішно використовуються в задачах комп'ютерного зору в обмежених машинах Больцмана.
Нещільна ReLU
Нещільна ReLU використовує невеличкий додатній градієнт, коли передавач не активний.
Параметрична ReLU
Параметрична ReLU узагальнює нещільну ReLU, а саме додається параметр нещільності, який навчається разом з іншими параметрами нейронної мережі.
Зауважте, що для , це еквівалентно
і тому таке відношення називають «максимальним виводом» (англ. maxout) мережі.
ELU
Експоненціально-лінійна ReLU робить середнє передавача ближчим до нуля, що прискорює навчання. Було показано, що ELU може отримати більш високу точність класифікації, ніж ReLU.
є гіперпараметром, який налаштовується і — константа.
Переваги
- Біологічна правдоподібність: Одностороння на відміну від центрально симетричного гіперболічного тангенса.
- Розріджена активація: наприклад, у випадково ініціалізованій мережі, тільки близько 50 % прихованих елементів активуються (мають не нульове значення).
- Краще градієнтне поширення: рідше виникає проблема зникання градієнту у порівнянні з сигмоїдальною передавальною функцією, яка може виникнути в обох напрямках.
- Швидкість обчислення: тільки порівняння, додавання та множення.
- Інваріантність відносно масштабування: для .
ReLU було використано для відокремлення специфічного збудження та неспецифічного інгібування у піраміді з нейронною абстракцією (англ. Neural Abstraction Pyramid), яка була навчена керовано, щоб вирішувати декілька завдань комп'ютерного зору. У 2011, ReLU використовували як елемент нелінійності з метою показати, можливість глибокого навчання нейронної мережі без попереднього некерованого навчання. ReLU, на відміну від сигмоїда та подібних передавальних функцій, дозволяє швидше та ефективніше навчання глибоких нейронних мереж на великих та складних наборах даних.
Потенційні складнощі
- Не регулярна у нулі: проте похідна існує в усіх інших точка, також можна на власний розсуд задати значення у нулі — 0 або 1.
- Несиметрична
- Необмежена
- Наявність мертвих зон: може трапитись так, що нейрони будуть переведені у стан, в якому вони стануть неактивними для всіх вхідних значень. Для такого стану відсутнє зворотне поширення градієнту, яке проходить через нейрон і тому в такому стані нейроном потрапляє у незмінний стан і «вмирає». Це один з різновидів проблеми зникання градієнту. В деяких випадках велика кількість нейронів мережі може застигнути у мертвому стані, і справити ефект зменшення місткості моделі. Така проблема зазвичай виникає коли встановлено дуже велику швидкість навчання. Цей ефект можна послабити, якщо натомість використати нещільну ReLU.
Див. також
- Softmax
- Сигмоїда
- Swish функція
- [en]
Примітки
- Білоус, Наталія; Комаров, Олексій (2018). (PDF). Інформаційні системи та технології. Коблеве — Харків. с. 438. Архів оригіналу (PDF) за 16 травня 2021. Процитовано 16 травня 2021.
- Проніна, О. І. (2019). . Маріуполь: ПДТУ. Архів оригіналу за 16 травня 2021. Процитовано 16 травня 2021.
- Момотюк, П. В. (2016). (PDF). Перспективи розвитку сучасної науки. Львів. с. 94—96. Архів оригіналу (PDF) за 16 травня 2021. Процитовано 16 травня 2021.
- Vinod Nair and Geoffrey Hinton (2010). (PDF). . Архів оригіналу (PDF) за 29 липня 2018. Процитовано 10 серпня 2018.
- Бубенщиков, О. В.; Лєпа, Є. В. (2019). (PDF). Інформаційні технології. Вісник ХНТУ. Херсон: ХНТУ. 1 (68): 136—142. Архів оригіналу (PDF) за 6 березня 2022. Процитовано 12 травня 2022.
- Ялова, К. М.; Яшина, К. В.; Ткаченко, М. В. (2018). (PDF). Технічні науки. Вісник ХНУ. Хмельницький: ХНУ. 2 (259). Архів оригіналу (PDF) за 18 квітня 2022. Процитовано 12 травня 2022.
- R Hahnloser, R. Sarpeshkar, M A Mahowald, R. J. Douglas, H.S. Seung (2000). Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit. Nature. Т. 405. с. 947—951.
- R Hahnloser, H.S. Seung (2001). Permitted and Forbidden Sets in Symmetric Threshold-Linear Networks. NIPS 2001.
- Xavier Glorot, Antoine Bordes and [en] (2011). (PDF). AISTATS. Архів оригіналу (PDF) за 13 грудня 2016. Процитовано 10 серпня 2018.
- Yann LeCun, , Genevieve B. Orr and [en] (1998). (PDF). У G. Orr and K. Müller (ред.). Neural Networks: Tricks of the Trade. Springer. Архів оригіналу (PDF) за 31 серпня 2018. Процитовано 10 серпня 2018.
- LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep learning. Nature. 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442.
- Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 жовтня 2017). Searching for Activation Functions. arXiv:1710.05941 [cs.NE].
- C. Dugas, Y. Bengio, F. Bélisle, C. Nadeau, R. Garcia, NIPS'2000, (2001), Incorporating Second-Order Functional Knowledge for Better Option Pricing [ 31 серпня 2018 у Wayback Machine.].
- László Tóth (2013). (PDF). . Архів оригіналу (PDF) за 25 вересня 2019. Процитовано 10 серпня 2018.
- Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models [ 19 червня 2018 у Wayback Machine.]
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification. arXiv:1502.01852 [cs.CV].
- Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). arXiv:1511.07289 [cs.LG].
- Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (14 червня 2011). . PMLR (англ.). Архів оригіналу за 24 серпня 2018. Процитовано 11 серпня 2018.
- Behnke, Sven (2003). . Lecture Notes in Computer Science. Т. 2766. Springer. doi:10.1007/b11963. Архів оригіналу за 11 серпня 2018. Процитовано 11 серпня 2018.
В іншому мовному розділі є повніша стаття Rectifier (neural networks)(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської.
|
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Zri zanij lini jnij vu zol inodi vi pryamlenij lini jnij vu zol angl rectified linear unit ReLU abo vipryamlya ch angl rectifier u konteksti shtuchnih nejronnih merezh ye peredavalnoyu funkciyeyu yaka viznachena takim chinom Grafiki ReLU sinij ta softplus zelenij peredavalnih funkcij v okoli x 0f x x max 0 x displaystyle f x x max 0 x de x vhidne znachennya nejrona Vona ye analogom napivperiodichnogo vipryamlyacha u shemotehnici Cya peredavalna funkciya bula zaprovadzhena dlya dinamichnih merezh Ganlozerom angl Hahnloser ta inshimi u 2000 roci z biologichnim pidgruntyam ta matematichnim obgruntuvannyam V 2011 roci vpershe bulo prodemonstrovano yak zabezpechiti krashe navchannya glibokih merezh na vidminu vid peredavalnih funkcij yaki shiroko vikoristovuvalis do cogo a same logistichnoyu funkciyeyu yaka bula zapozichena z teoriyi jmovirnostej divis logistichna regresiya i viyavilis bilsh praktichnimi nizh giperbolichnij tangens ReLU ye stanom na 2018 najbilsh populyarnoyu peredavalnoyu funkciyeyu dlya glibokih nejronnih merezh Gladke nablizhennya ReLU ye gladkoyu funkciyeyu f x log 1 exp x displaystyle f x log 1 exp x yaka nazivayetsya softplus funkciyeyu Pohidnoyu softplus ye f x exp x 1 exp x 1 1 exp x displaystyle f x exp x 1 exp x 1 1 exp x tobto logistichna funkciya ReLU chasto vikoristovuyetsya pri glibokomu navchanni v zadachah komp yuternogo zoru ta rozpiznavannya movlennya VariaciyiReLU z shumom Do ReLU mozhna dodati gaussiv shum sho daye ReLU z shumom f x max 0 x Y displaystyle f x max 0 x Y z Y N 0 s x displaystyle Y sim mathcal N 0 sigma x ReLU z shumom uspishno vikoristovuyutsya v zadachah komp yuternogo zoru v obmezhenih mashinah Bolcmana Neshilna ReLU Neshilna ReLU vikoristovuye nevelichkij dodatnij gradiyent koli peredavach ne aktivnij f x x yaksho x gt 00 01x inakshe displaystyle f x begin cases x amp mbox yaksho x gt 0 0 01x amp mbox inakshe end cases Parametrichna ReLU Parametrichna ReLU uzagalnyuye neshilnu ReLU a same dodayetsya parametr neshilnosti yakij navchayetsya razom z inshimi parametrami nejronnoyi merezhi f x x yaksho x gt 0ax inakshe displaystyle f x begin cases x amp mbox yaksho x gt 0 ax amp mbox inakshe end cases Zauvazhte sho dlya a 1 displaystyle a leqslant 1 ce ekvivalentno f x max x ax displaystyle f x max x ax i tomu take vidnoshennya nazivayut maksimalnim vivodom angl maxout merezhi ELU Eksponencialno linijna ReLU robit serednye peredavacha blizhchim do nulya sho priskoryuye navchannya Bulo pokazano sho ELU mozhe otrimati bilsh visoku tochnist klasifikaciyi nizh ReLU f x x yaksho x 0a ex 1 inakshe displaystyle f x begin cases x amp mbox yaksho x geqslant 0 a e x 1 amp mbox inakshe end cases a displaystyle a ye giperparametrom yakij nalashtovuyetsya i a 0 displaystyle a geqslant 0 konstanta PerevagiBiologichna pravdopodibnist Odnostoronnya na vidminu vid centralno simetrichnogo giperbolichnogo tangensa Rozridzhena aktivaciya napriklad u vipadkovo inicializovanij merezhi tilki blizko 50 prihovanih elementiv aktivuyutsya mayut ne nulove znachennya Krashe gradiyentne poshirennya ridshe vinikaye problema znikannya gradiyentu u porivnyanni z sigmoyidalnoyu peredavalnoyu funkciyeyu yaka mozhe viniknuti v oboh napryamkah Shvidkist obchislennya tilki porivnyannya dodavannya ta mnozhennya Invariantnist vidnosno masshtabuvannya max 0 ax amax 0 x displaystyle max 0 ax a max 0 x dlya a 0 displaystyle a geqslant 0 ReLU bulo vikoristano dlya vidokremlennya specifichnogo zbudzhennya ta nespecifichnogo ingibuvannya u piramidi z nejronnoyu abstrakciyeyu angl Neural Abstraction Pyramid yaka bula navchena kerovano shob virishuvati dekilka zavdan komp yuternogo zoru U 2011 ReLU vikoristovuvali yak element nelinijnosti z metoyu pokazati mozhlivist glibokogo navchannya nejronnoyi merezhi bez poperednogo nekerovanogo navchannya ReLU na vidminu vid sigmoyida ta podibnih peredavalnih funkcij dozvolyaye shvidshe ta efektivnishe navchannya glibokih nejronnih merezh na velikih ta skladnih naborah danih Potencijni skladnoshiNe regulyarna u nuli prote pohidna isnuye v usih inshih tochka takozh mozhna na vlasnij rozsud zadati znachennya u nuli 0 abo 1 Nesimetrichna Neobmezhena Nayavnist mertvih zon mozhe trapitis tak sho nejroni budut perevedeni u stan v yakomu voni stanut neaktivnimi dlya vsih vhidnih znachen Dlya takogo stanu vidsutnye zvorotne poshirennya gradiyentu yake prohodit cherez nejron i tomu v takomu stani nejronom potraplyaye u nezminnij stan i vmiraye Ce odin z riznovidiv problemi znikannya gradiyentu V deyakih vipadkah velika kilkist nejroniv merezhi mozhe zastignuti u mertvomu stani i spraviti efekt zmenshennya mistkosti modeli Taka problema zazvichaj vinikaye koli vstanovleno duzhe veliku shvidkist navchannya Cej efekt mozhna poslabiti yaksho natomist vikoristati neshilnu ReLU Div takozhSoftmax Sigmoyida Swish funkciya en PrimitkiBilous Nataliya Komarov Oleksij 2018 PDF Informacijni sistemi ta tehnologiyi Kobleve Harkiv s 438 Arhiv originalu PDF za 16 travnya 2021 Procitovano 16 travnya 2021 Pronina O I 2019 Mariupol PDTU Arhiv originalu za 16 travnya 2021 Procitovano 16 travnya 2021 Momotyuk P V 2016 PDF Perspektivi rozvitku suchasnoyi nauki Lviv s 94 96 Arhiv originalu PDF za 16 travnya 2021 Procitovano 16 travnya 2021 Vinod Nair and Geoffrey Hinton 2010 PDF Arhiv originalu PDF za 29 lipnya 2018 Procitovano 10 serpnya 2018 Bubenshikov O V Lyepa Ye V 2019 PDF Informacijni tehnologiyi Visnik HNTU Herson HNTU 1 68 136 142 Arhiv originalu PDF za 6 bereznya 2022 Procitovano 12 travnya 2022 Yalova K M Yashina K V Tkachenko M V 2018 PDF Tehnichni nauki Visnik HNU Hmelnickij HNU 2 259 Arhiv originalu PDF za 18 kvitnya 2022 Procitovano 12 travnya 2022 R Hahnloser R Sarpeshkar M A Mahowald R J Douglas H S Seung 2000 Digital selection and analogue amplification coexist in a cortex inspired silicon circuit Nature T 405 s 947 951 R Hahnloser H S Seung 2001 Permitted and Forbidden Sets in Symmetric Threshold Linear Networks NIPS 2001 Xavier Glorot Antoine Bordes and en 2011 PDF AISTATS Arhiv originalu PDF za 13 grudnya 2016 Procitovano 10 serpnya 2018 Yann LeCun Genevieve B Orr and en 1998 PDF U G Orr and K Muller red Neural Networks Tricks of the Trade Springer Arhiv originalu PDF za 31 serpnya 2018 Procitovano 10 serpnya 2018 LeCun Yann Bengio Yoshua Hinton Geoffrey 2015 Deep learning Nature 521 7553 436 444 Bibcode 2015Natur 521 436L doi 10 1038 nature14539 PMID 26017442 Ramachandran Prajit Barret Zoph Quoc V Le 16 zhovtnya 2017 Searching for Activation Functions arXiv 1710 05941 cs NE C Dugas Y Bengio F Belisle C Nadeau R Garcia NIPS 2000 2001 Incorporating Second Order Functional Knowledge for Better Option Pricing 31 serpnya 2018 u Wayback Machine Laszlo Toth 2013 PDF Arhiv originalu PDF za 25 veresnya 2019 Procitovano 10 serpnya 2018 Andrew L Maas Awni Y Hannun Andrew Y Ng 2014 Rectifier Nonlinearities Improve Neural Network Acoustic Models 19 chervnya 2018 u Wayback Machine He Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 2015 Delving Deep into Rectifiers Surpassing Human Level Performance on Image Net Classification arXiv 1502 01852 cs CV Clevert Djork Arne Unterthiner Thomas Hochreiter Sepp 2015 Fast and Accurate Deep Network Learning by Exponential Linear Units ELUs arXiv 1511 07289 cs LG Glorot Xavier Bordes Antoine Bengio Yoshua 14 chervnya 2011 PMLR angl Arhiv originalu za 24 serpnya 2018 Procitovano 11 serpnya 2018 Behnke Sven 2003 Lecture Notes in Computer Science T 2766 Springer doi 10 1007 b11963 Arhiv originalu za 11 serpnya 2018 Procitovano 11 serpnya 2018 V inshomu movnomu rozdili ye povnisha stattya Rectifier neural networks angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad