Ве́нтильні рекуре́нтні вузли́ (ВРВ, англ. Gated recurrent units, GRU) — це вентильний механізм у рекурентних нейронних мережах, представлений 2014 року. Вони подібні до довгої короткочасної пам'яті з вентилем забування, але мають менше параметрів, оскільки не мають вентиля виходу.
Було виявлено, що їхня продуктивність на моделюванні поліфонічної музики та мовленнєвого сигналу аналогічна продуктивності ДКЧП.
Однак, як показали Гейл Вейз (англ. Gail Weiss), Іов Голдберг (англ. Yoav Goldberg) та Еран Яхав (англ. Eran Yahav), ДКЧП «суттєво сильніше» ВРВ, бо може виконувати необмежений підрахунок, неможливий для ВРВ. Ось чому ВРВ не може вивчити прості мови, з якими впоралась ДКЧП.
Аналогічно, як показали Денні Бритз (англ. Denny Britz), Анна Голді (англ. Anna Goldie, Мінь-Тханг Луонг (англ. Minh-Thang Luong) і Куок Лей (англ. Quoc Le) з Google Brain, вузли ДКЧП незмінно перевершують вузли ВРВ у «передовому широкомасштабному аналізі варіацій архітектури для нейронного машинного перекладу».
Архітектура
Символ позначає добуток Адамара. Початкове значення .
Повний рекурентний вузол
Повний рекурентний вузол працює наступним чином. На вхід подаються значення вектору входу та значення виходу (при , вектор виходу ). По ним обчислюється претендент на нове значення виходу — вектор вузла скидання (англ. reset gate vector) , який обчислюється як функція активації (зазвичай сигмоїд) від матричного виразу по параметрам , та . Незалежно, подібним чином, обчислюється вектор вузла уточнення (англ. update gate vector) . Цей вектор містить значення, які визначають, чи варто залишити значення зі старого вектору, чи взяти нове значення. Фактично, це набір «вентилів» (англ. gate), які «пропускають» або старе, або нове значення. Далі обчислюється вектор виходу , в якому з ймовірністю береться старе значення з вектору , або з ймовірністю обчислюється нове значення.
Формули для обчислень наступні:
Змінні
- : вектор входу
- : вектор виходу
- : вектор вузла уточнення
- : вектор вузла скидання
- , та : матриці та вектор параметрів
- : В оригіналі є сигмоїдною функцією.
- : В оригіналі є гіперболічним тангенсом.
Примітки
- Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. arXiv:1406.1078 [cs.CL].
- ; Jürgen Schmidhuber; Fred Cummins (1999). . Proc. ICANN'99, IEE, London: 850—855. Архів оригіналу за 1 квітня 2019. Процитовано 1 квітня 2019.
- . Wildml.com. Архів оригіналу за 10 листопада 2021. Процитовано 18 травня 2016. (англ.)
- Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv:1412.3555 [cs.NE]. (англ.)
- Weiss, Gail; Goldberg, Yoav; Yahav, Eran (2018). On the Practical Computational Power of Finite Precision RNNs for Language Recognition. arXiv:1805.04908 [cs.NE].
- Knowledge Center (24 вересня 2018), RNN W1L09 : Gated Recurrent Unit GRU, процитовано 1 квітня 2019
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ve ntilni rekure ntni vuzli VRV angl Gated recurrent units GRU ce ventilnij mehanizm u rekurentnih nejronnih merezhah predstavlenij 2014 roku Voni podibni do dovgoyi korotkochasnoyi pam yati z ventilem zabuvannya ale mayut menshe parametriv oskilki ne mayut ventilya vihodu Bulo viyavleno sho yihnya produktivnist na modelyuvanni polifonichnoyi muziki ta movlennyevogo signalu analogichna produktivnosti DKChP Odnak yak pokazali Gejl Vejz angl Gail Weiss Iov Goldberg angl Yoav Goldberg ta Eran Yahav angl Eran Yahav DKChP suttyevo silnishe VRV bo mozhe vikonuvati neobmezhenij pidrahunok nemozhlivij dlya VRV Os chomu VRV ne mozhe vivchiti prosti movi z yakimi vporalas DKChP Analogichno yak pokazali Denni Britz angl Denny Britz Anna Goldi angl Anna Goldie Min Thang Luong angl Minh Thang Luong i Kuok Lej angl Quoc Le z Google Brain vuzli DKChP nezminno perevershuyut vuzli VRV u peredovomu shirokomasshtabnomu analizi variacij arhitekturi dlya nejronnogo mashinnogo perekladu ArhitekturaSimvol displaystyle circ poznachaye dobutok Adamara Pochatkove znachennya h0 0 displaystyle h 0 0 Povnij rekurentnij vuzol Povnij rekurentnij vuzol Povnij rekurentnij vuzol pracyuye nastupnim chinom Na vhid podayutsya znachennya vektoru vhodu xt displaystyle x t ta znachennya vihodu ht 1 displaystyle h t 1 pri t 0 displaystyle t 0 vektor vihodu h0 0 displaystyle h 0 0 Po nim obchislyuyetsya pretendent na nove znachennya vihodu vektor vuzla skidannya angl reset gate vector rt displaystyle r t yakij obchislyuyetsya yak funkciya aktivaciyi zazvichaj sigmoyid vid matrichnogo virazu po parametram W displaystyle W U displaystyle U ta b displaystyle b Nezalezhno podibnim chinom obchislyuyetsya vektor vuzla utochnennya angl update gate vector zt displaystyle z t Cej vektor mistit znachennya yaki viznachayut chi varto zalishiti znachennya zi starogo vektoru chi vzyati nove znachennya Faktichno ce nabir ventiliv angl gate yaki propuskayut abo stare abo nove znachennya Dali obchislyuyetsya vektor vihodu ht displaystyle h t v yakomu z jmovirnistyu zt displaystyle z t beretsya stare znachennya z vektoru ht 1 displaystyle h t 1 abo z jmovirnistyu 1 zt displaystyle 1 z t obchislyuyetsya nove znachennya Formuli dlya obchislen nastupni zt sg Wzxt Uzht 1 bz rt sg Wrxt Urht 1 br ht zt ht 1 1 zt sh Whxt Uh rt ht 1 bh displaystyle begin aligned z t amp sigma g W z x t U z h t 1 b z r t amp sigma g W r x t U r h t 1 b r h t amp z t circ h t 1 1 z t circ sigma h W h x t U h r t circ h t 1 b h end aligned Zminni xt displaystyle x t vektor vhodu ht displaystyle h t vektor vihodu zt displaystyle z t vektor vuzla utochnennya rt displaystyle r t vektor vuzla skidannya W displaystyle W U displaystyle U ta b displaystyle b matrici ta vektor parametriv Funkciyi aktivaciyi sg displaystyle sigma g V originali ye sigmoyidnoyu funkciyeyu sh displaystyle sigma h V originali ye giperbolichnim tangensom PrimitkiCho Kyunghyun van Merrienboer Bart Gulcehre Caglar Bahdanau Dzmitry Bougares Fethi Schwenk Holger Bengio Yoshua 2014 Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation arXiv 1406 1078 cs CL Jurgen Schmidhuber Fred Cummins 1999 Proc ICANN 99 IEE London 850 855 Arhiv originalu za 1 kvitnya 2019 Procitovano 1 kvitnya 2019 Wildml com Arhiv originalu za 10 listopada 2021 Procitovano 18 travnya 2016 angl Chung Junyoung Gulcehre Caglar Cho KyungHyun Bengio Yoshua 2014 Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling arXiv 1412 3555 cs NE angl Weiss Gail Goldberg Yoav Yahav Eran 2018 On the Practical Computational Power of Finite Precision RNNs for Language Recognition arXiv 1805 04908 cs NE Knowledge Center 24 veresnya 2018 RNN W1L09 Gated Recurrent Unit GRU procitovano 1 kvitnya 2019