Зрі́заний ліні́йний ву́зол, іноді ви́прямлений ліні́йний ву́зол (англ. rectified linear unit, ReLU), або випрямля́ч (англ. rectifier) у контексті штучних нейронних мереж є передавальною функцією, яка визначена таким чином:
- ,
де x вхідне значення нейрона. Вона є аналогом (напівперіодичного випрямляча) у схемотехніці. Ця передавальна функція була запроваджена для динамічних мереж Ганлозером (англ. Hahnloser) та іншими у 2000 році з біологічним підґрунтям та математичним обґрунтуванням. В 2011 році вперше було продемонстровано, як забезпечити краще навчання глибоких мереж, на відміну від передавальних функцій, які широко використовувались до цього, а саме, логістичною функцією (яка була запозичена з теорії ймовірностей; дивись логістична регресія) і виявились більш практичними ніж гіперболічний тангенс. ReLU є, станом на 2018, найбільш популярною передавальною функцією для глибоких нейронних мереж.
Гладке наближення ReLU є гладкою функцією
яка називається softplus-функцією. Похідною softplus є , тобто логістична функція.
ReLU часто використовується при глибокому навчанні в задачах комп'ютерного зору та розпізнавання мовлення.
Варіації
ReLU з шумом
До ReLU можна додати гауссів шум, що дає ReLU з шумом
- , з
ReLU з шумом успішно використовуються в задачах комп'ютерного зору в обмежених машинах Больцмана.
Нещільна ReLU
Нещільна ReLU використовує невеличкий додатній градієнт, коли передавач не активний.
Параметрична ReLU
Параметрична ReLU узагальнює нещільну ReLU, а саме додається параметр нещільності, який навчається разом з іншими параметрами нейронної мережі.
Зауважте, що для , це еквівалентно
і тому таке відношення називають «максимальним виводом» (англ. maxout) мережі.
ELU
Експоненціально-лінійна ReLU робить середнє передавача ближчим до нуля, що прискорює навчання. Було показано, що ELU може отримати більш високу точність класифікації, ніж ReLU.
є гіперпараметром, який налаштовується і — константа.
Переваги
- Біологічна правдоподібність: Одностороння на відміну від центрально симетричного гіперболічного тангенса.
- Розріджена активація: наприклад, у випадково ініціалізованій мережі, тільки близько 50 % прихованих елементів активуються (мають не нульове значення).
- Краще градієнтне поширення: рідше виникає проблема зникання градієнту у порівнянні з сигмоїдальною передавальною функцією, яка може виникнути в обох напрямках.
- Швидкість обчислення: тільки порівняння, додавання та множення.
- Інваріантність відносно масштабування: для .
ReLU було використано для відокремлення специфічного збудження та неспецифічного інгібування у піраміді з нейронною абстракцією (англ. Neural Abstraction Pyramid), яка була навчена керовано, щоб вирішувати декілька завдань комп'ютерного зору. У 2011, ReLU використовували як елемент нелінійності з метою показати, можливість глибокого навчання нейронної мережі без попереднього некерованого навчання. ReLU, на відміну від сигмоїда та подібних передавальних функцій, дозволяє швидше та ефективніше навчання глибоких нейронних мереж на великих та складних наборах даних.
Потенційні складнощі
- Не регулярна у нулі: проте похідна існує в усіх інших точках, також можна на власний розсуд задати значення у нулі — 0 або 1.
- Несиметрична
- Необмежена
- Наявність мертвих зон: може трапитись так, що нейрони будуть переведені у стан, в якому вони стануть неактивними для всіх вхідних значень. Для такого стану відсутнє зворотне поширення градієнту, яке проходить через нейрон і тому в такому стані нейроном потрапляє у незмінний стан і «вмирає». Це один з різновидів проблеми зникання градієнту. В деяких випадках велика кількість нейронів мережі може застигнути у мертвому стані, і справити ефект зменшення місткості моделі. Така проблема зазвичай виникає коли встановлено дуже велику швидкість навчання. Цей ефект можна послабити, якщо натомість використати нещільну ReLU.
Див. також
- Softmax
- Сигмоїда
- Swish функція
- [en]
Примітки
- Білоус, Наталія; Комаров, Олексій (2018). Використання методів глибинного навчання для сегментації пухлин головного мозку на МРТ-зображеннях (PDF). Інформаційні системи та технології. Коблеве — Харків. с. 438. Архів оригіналу (PDF) за 16 травня 2021. Процитовано 16 травня 2021.
- Проніна, О. І. (2019). Робоча програма навчальної дисципліни «Машинне навчання» для здобувачів освітнього ступеня магістра за спеціальністю 122 «Комп’ютерні науки», освітньої програми «Інформаційні системи та технології». Маріуполь: ПДТУ. Архів оригіналу за 16 травня 2021. Процитовано 16 травня 2021. [Архівовано 2021-05-16 у Wayback Machine.]
- Момотюк, П. В. (2016). Оптимізація архітектури згорткових нейронних мереж за розташуванням вузлів ReLU (PDF). Перспективи розвитку сучасної науки. Львів. с. 94—96. Архів оригіналу (PDF) за 16 травня 2021. Процитовано 16 травня 2021.
- Vinod Nair and Geoffrey Hinton (2010). Rectified Linear Units Improve Restricted Boltzmann Machines (PDF). . Архів оригіналу (PDF) за 29 липня 2018. Процитовано 10 серпня 2018.
- Бубенщиков, О. В.; Лєпа, Є. В. (2019). Використання згортальних нейронних мереж для ідентифікації обличчя людини (PDF). Інформаційні технології. Вісник ХНТУ. Херсон: ХНТУ. 1 (68): 136—142. Архів оригіналу (PDF) за 6 березня 2022. Процитовано 12 травня 2022.
- Ялова, К. М.; Яшина, К. В.; Ткаченко, М. В. (2018). Розпізнавання образів згортковою нейронною мережею (PDF). Технічні науки. Вісник ХНУ. Хмельницький: ХНУ. 2 (259). Архів оригіналу (PDF) за 18 квітня 2022. Процитовано 12 травня 2022.
- R Hahnloser, R. Sarpeshkar, M A Mahowald, R. J. Douglas, H.S. Seung (2000). Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit. Nature. Т. 405. с. 947—951.
- R Hahnloser, H.S. Seung (2001). Permitted and Forbidden Sets in Symmetric Threshold-Linear Networks. NIPS 2001.
- Xavier Glorot, Antoine Bordes and [en] (2011). Deep sparse rectifier neural networks (PDF). AISTATS. Архів оригіналу (PDF) за 13 грудня 2016. Процитовано 10 серпня 2018.
- Yann LeCun, , Genevieve B. Orr and [en] (1998). Efficient BackProp (PDF). У G. Orr and K. Müller (ред.). Neural Networks: Tricks of the Trade. Springer. Архів оригіналу (PDF) за 31 серпня 2018. Процитовано 10 серпня 2018.
- LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep learning. Nature. 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442.
- Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 жовтня 2017). Searching for Activation Functions. arXiv:1710.05941 [cs.NE].
- C. Dugas, Y. Bengio, F. Bélisle, C. Nadeau, R. Garcia, NIPS'2000, (2001), Incorporating Second-Order Functional Knowledge for Better Option Pricing [Архівовано 31 серпня 2018 у Wayback Machine.].
- László Tóth (2013). Phone Recognition with Deep Sparse Rectifier Neural Networks (PDF). . Архів оригіналу (PDF) за 25 вересня 2019. Процитовано 10 серпня 2018.
- Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models [Архівовано 19 червня 2018 у Wayback Machine.]
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification. arXiv:1502.01852 [cs.CV].
- Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). arXiv:1511.07289 [cs.LG].
- Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (14 червня 2011). Deep Sparse Rectifier Neural Networks. PMLR (англ.). Архів оригіналу за 24 серпня 2018. Процитовано 11 серпня 2018.
- Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation. Lecture Notes in Computer Science. Т. 2766. Springer. doi:10.1007/b11963. Архів оригіналу за 11 серпня 2018. Процитовано 11 серпня 2018.
В іншому мовному розділі є повніша стаття Rectifier (neural networks)(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської.
|
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Zri zanij lini jnij vu zol 1 2 inodi vi pryamlenij lini jnij vu zol 3 angl rectified linear unit ReLU 4 abo vipryamlya ch 5 6 angl rectifier u konteksti shtuchnih nejronnih merezh ye peredavalnoyu funkciyeyu yaka viznachena takim chinom Grafiki ReLU sinij ta softplus zelenij peredavalnih funkcij v okoli x 0 f x x max 0 x displaystyle f x x max 0 x de x vhidne znachennya nejrona Vona ye analogom napivperiodichnogo vipryamlyacha u shemotehnici Cya peredavalna funkciya bula zaprovadzhena dlya dinamichnih merezh Ganlozerom angl Hahnloser ta inshimi u 2000 roci 7 z biologichnim pidgruntyam ta matematichnim obgruntuvannyam 8 V 2011 roci vpershe bulo prodemonstrovano yak zabezpechiti krashe navchannya glibokih merezh 9 na vidminu vid peredavalnih funkcij yaki shiroko vikoristovuvalis do cogo a same logistichnoyu funkciyeyu yaka bula zapozichena z teoriyi jmovirnostej divis logistichna regresiya i viyavilis bilsh praktichnimi 10 nizh giperbolichnij tangens ReLU ye stanom na 2018 najbilsh populyarnoyu peredavalnoyu funkciyeyu dlya glibokih nejronnih merezh 11 12 Gladke nablizhennya ReLU ye gladkoyu funkciyeyu f x log 1 exp x displaystyle f x log 1 exp x yaka nazivayetsya softplus funkciyeyu 13 Pohidnoyu softplus ye f x exp x 1 exp x 1 1 exp x displaystyle f x exp x 1 exp x 1 1 exp x tobto logistichna funkciya ReLU chasto vikoristovuyetsya pri glibokomu navchanni v zadachah komp yuternogo zoru 9 ta rozpiznavannya movlennya 14 15 Zmist 1 Variaciyi 1 1 ReLU z shumom 1 2 Neshilna ReLU 1 2 1 Parametrichna ReLU 1 3 ELU 2 Perevagi 3 Potencijni skladnoshi 4 Div takozh 5 PrimitkiVariaciyired ReLU z shumomred Do ReLU mozhna dodati gaussiv shum sho daye ReLU z shumom 4 f x max 0 x Y displaystyle f x max 0 x Y nbsp z Y N 0 s x displaystyle Y sim mathcal N 0 sigma x nbsp ReLU z shumom uspishno vikoristovuyutsya v zadachah komp yuternogo zoru v obmezhenih mashinah Bolcmana 4 Neshilna ReLUred Neshilna ReLU vikoristovuye nevelichkij dodatnij gradiyent koli peredavach ne aktivnij 15 f x x yaksho x gt 0 0 01 x inakshe displaystyle f x begin cases x amp mbox yaksho x gt 0 0 01x amp mbox inakshe end cases nbsp Parametrichna ReLUred Parametrichna ReLU uzagalnyuye neshilnu ReLU a same dodayetsya parametr neshilnosti yakij navchayetsya razom z inshimi parametrami nejronnoyi merezhi 16 f x x yaksho x gt 0 a x inakshe displaystyle f x begin cases x amp mbox yaksho x gt 0 ax amp mbox inakshe end cases nbsp Zauvazhte sho dlya a 1 displaystyle a leqslant 1 nbsp ce ekvivalentno f x max x a x displaystyle f x max x ax nbsp i tomu take vidnoshennya nazivayut maksimalnim vivodom angl maxout merezhi 16 ELUred Eksponencialno linijna ReLU robit serednye peredavacha blizhchim do nulya sho priskoryuye navchannya Bulo pokazano sho ELU mozhe otrimati bilsh visoku tochnist klasifikaciyi nizh ReLU 17 f x x yaksho x 0 a e x 1 inakshe displaystyle f x begin cases x amp mbox yaksho x geqslant 0 a e x 1 amp mbox inakshe end cases nbsp a displaystyle a nbsp ye giperparametrom yakij nalashtovuyetsya i a 0 displaystyle a geqslant 0 nbsp konstanta Perevagired Biologichna pravdopodibnist Odnostoronnya na vidminu vid centralno simetrichnogo giperbolichnogo tangensa Rozridzhena aktivaciya napriklad u vipadkovo inicializovanij merezhi tilki blizko 50 prihovanih elementiv aktivuyutsya mayut ne nulove znachennya Krashe gradiyentne poshirennya ridshe vinikaye problema znikannya gradiyentu u porivnyanni z sigmoyidalnoyu peredavalnoyu funkciyeyu yaka mozhe viniknuti v oboh napryamkah 18 Shvidkist obchislennya tilki porivnyannya dodavannya ta mnozhennya Invariantnist vidnosno masshtabuvannya max 0 a x a max 0 x displaystyle max 0 ax a max 0 x nbsp dlya a 0 displaystyle a geqslant 0 nbsp ReLU bulo vikoristano dlya vidokremlennya specifichnogo zbudzhennya ta nespecifichnogo ingibuvannya u piramidi z nejronnoyu abstrakciyeyu angl Neural Abstraction Pyramid yaka bula navchena kerovano shob virishuvati dekilka zavdan komp yuternogo zoru 19 U 2011 9 ReLU vikoristovuvali yak element nelinijnosti z metoyu pokazati mozhlivist glibokogo navchannya nejronnoyi merezhi bez poperednogo nekerovanogo navchannya ReLU na vidminu vid sigmoyida ta podibnih peredavalnih funkcij dozvolyaye shvidshe ta efektivnishe navchannya glibokih nejronnih merezh na velikih ta skladnih naborah danih Potencijni skladnoshired Ne regulyarna u nuli prote pohidna isnuye v usih inshih tochkah takozh mozhna na vlasnij rozsud zadati znachennya u nuli 0 abo 1 Nesimetrichna Neobmezhena Nayavnist mertvih zon mozhe trapitis tak sho nejroni budut perevedeni u stan v yakomu voni stanut neaktivnimi dlya vsih vhidnih znachen Dlya takogo stanu vidsutnye zvorotne poshirennya gradiyentu yake prohodit cherez nejron i tomu v takomu stani nejronom potraplyaye u nezminnij stan i vmiraye Ce odin z riznovidiv problemi znikannya gradiyentu V deyakih vipadkah velika kilkist nejroniv merezhi mozhe zastignuti u mertvomu stani i spraviti efekt zmenshennya mistkosti modeli Taka problema zazvichaj vinikaye koli vstanovleno duzhe veliku shvidkist navchannya Cej efekt mozhna poslabiti yaksho natomist vikoristati neshilnu ReLU Div takozhred Softmax Sigmoyida Swish funkciya Tobit model en Primitkired Bilous Nataliya Komarov Oleksij 2018 Vikoristannya metodiv glibinnogo navchannya dlya segmentaciyi puhlin golovnogo mozku na MRT zobrazhennyah PDF Informacijni sistemi ta tehnologiyi Kobleve Harkiv s 438 Arhiv originalu PDF za 16 travnya 2021 Procitovano 16 travnya 2021 Pronina O I 2019 Robocha programa navchalnoyi disciplini Mashinne navchannya dlya zdobuvachiv osvitnogo stupenya magistra za specialnistyu 122 Komp yuterni nauki osvitnoyi programi Informacijni sistemi ta tehnologiyi Mariupol PDTU Arhiv originalu za 16 travnya 2021 Procitovano 16 travnya 2021 Arhivovano 2021 05 16 u Wayback Machine Momotyuk P V 2016 Optimizaciya arhitekturi zgortkovih nejronnih merezh za roztashuvannyam vuzlivReLU PDF Perspektivi rozvitku suchasnoyi nauki Lviv s 94 96 Arhiv originalu PDF za 16 travnya 2021 Procitovano 16 travnya 2021 a b v Vinod Nair and Geoffrey Hinton 2010 Rectified Linear Units Improve Restricted Boltzmann Machines PDF ICML Arhiv originalu PDF za 29 lipnya 2018 Procitovano 10 serpnya 2018 Bubenshikov O V Lyepa Ye V 2019 Vikoristannya zgortalnih nejronnih merezh dlya identifikaciyi oblichchya lyudini PDF Informacijni tehnologiyi Visnik HNTU Herson HNTU 1 68 136 142 Arhiv originalu PDF za 6 bereznya 2022 Procitovano 12 travnya 2022 Yalova K M Yashina K V Tkachenko M V 2018 Rozpiznavannya obraziv zgortkovoyu nejronnoyu merezheyu PDF Tehnichni nauki Visnik HNU Hmelnickij HNU 2 259 Arhiv originalu PDF za 18 kvitnya 2022 Procitovano 12 travnya 2022 R Hahnloser R Sarpeshkar M A Mahowald R J Douglas H S Seung 2000 Digital selection and analogue amplification coexist in a cortex inspired silicon circuit Nature T 405 s 947 951 R Hahnloser H S Seung 2001 Permitted and Forbidden Sets in Symmetric Threshold Linear Networks NIPS 2001 a b v Xavier Glorot Antoine Bordes and Yoshua Bengio en 2011 Deep sparse rectifier neural networks PDF AISTATS Arhiv originalu PDF za 13 grudnya 2016 Procitovano 10 serpnya 2018 Yann LeCun Leon Bottou Genevieve B Orr and Klaus Robert Muller en 1998 Efficient BackProp PDF U G Orr and K Muller red Neural Networks Tricks of the Trade Springer Arhiv originalu PDF za 31 serpnya 2018 Procitovano 10 serpnya 2018 LeCun Yann Bengio Yoshua Hinton Geoffrey 2015 Deep learning Nature 521 7553 436 444 Bibcode 2015Natur 521 436L doi 10 1038 nature14539 PMID 26017442 Ramachandran Prajit Barret Zoph Quoc V Le 16 zhovtnya 2017 Searching for Activation Functions arXiv 1710 05941 cs NE C Dugas Y Bengio F Belisle C Nadeau R Garcia NIPS 2000 2001 Incorporating Second Order Functional Knowledge for Better Option Pricing Arhivovano 31 serpnya 2018 u Wayback Machine Laszlo Toth 2013 Phone Recognition with Deep Sparse Rectifier Neural Networks PDF ICASSP Arhiv originalu PDF za 25 veresnya 2019 Procitovano 10 serpnya 2018 a b Andrew L Maas Awni Y Hannun Andrew Y Ng 2014 Rectifier Nonlinearities Improve Neural Network Acoustic Models Arhivovano 19 chervnya 2018 u Wayback Machine a b He Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 2015 Delving Deep into Rectifiers Surpassing Human Level Performance on Image Net Classification arXiv 1502 01852 cs CV Clevert Djork Arne Unterthiner Thomas Hochreiter Sepp 2015 Fast and Accurate Deep Network Learning by Exponential Linear Units ELUs arXiv 1511 07289 cs LG Glorot Xavier Bordes Antoine Bengio Yoshua 14 chervnya 2011 Deep Sparse Rectifier Neural Networks PMLR angl Arhiv originalu za 24 serpnya 2018 Procitovano 11 serpnya 2018 Behnke Sven 2003 Hierarchical Neural Networks for Image Interpretation Lecture Notes in Computer Science T 2766 Springer doi 10 1007 b11963 Arhiv originalu za 11 serpnya 2018 Procitovano 11 serpnya 2018 V inshomu movnomu rozdili ye povnisha stattya Rectifier neural networks angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad Otrimano z https uk wikipedia org w index php title ReLU amp oldid 44023482