У машинному навчанні варіаційний автокодувальник (англ. variational autoencoder), відомий також як ВАК (англ. VAE), — це архітектура штучної нейронної мережі, запроваджена та [en], що належить до сімейств імовірнісних графових моделей та [en].
Її часто асоціюють із моделлю автокодувальника через її архітектурну спорідненість, але між ними є значні відмінності як у цілі, так і в математичному формулюванні. Варіаційні автокодувальники призначено для стискання інформації входу до обмеженого багатовимірного латентного розподілу (кодування), щоби відбудовувати її якомога точніше (декодування). Хоча первинно цей тип моделі було розроблено для некерованого навчання, його дієвість було доведено й в інших областях машинного навчання, таких як напівкероване та кероване навчання.
Архітектура
Варіаційні автокодувальники є варіаційними баєсовими методами з багатовимірним розподілом як апріорне, й апостеріорним, наближуваним штучною нейронною мережею, що утворюють так звану структуру варіаційного кодувальника-декодувальника.
Стандартний кодувальник є штучною нейронною мережею, здатною зводити свою вхідну інформацію до найвужчого подання, що називають латентним простором. Він являє собою першу половину архітектури як автокодувальника, так і варіаційного автокодувальника: для першого виходом є фіксований вектор штучних нейронів, а в другому інформація виходу стискається до ймовірнісного латентного простору, що все ще складається зі штучних нейронів. Проте в архітектурі варіаційного автокодувальника вони представляють і їх розглядають як два різні вектори однакової вимірності, що подають вектор середніх значень та вектор стандартних відхилень відповідно.
Стандартний декодувальник все ще є штучною нейронною мережею, призначеною віддзеркалювати архітектуру кодувальника. Він бере на вході стиснену інформацію, що надходить із латентного простору, а потім розгортає її, виробляючи вихід, якомога ближчий до входу кодувальника. І хоча для автокодувальника вхід декодувальника є просто вектором дійсних значень фіксованої довжини, для варіаційного автокодувальника необхідно ввести проміжний етап: враховуючи ймовірнісну природу латентного простору, можливо розглядати його як багатовимірний гауссів вектор. За цього припущення й за допомогою методики, відомої як перепараметрувальний трюк (англ. reparametrization trick), можливо вибирати сукупності з цього латентного простору й розглядати їх точно як вектор дійсних значень фіксованої довжини.
З системної точки зору моделі як стандартного, так і варіаційного автокодувальників отримують як вхід набір даних великої розмірності. Потім вони адаптивно стискають його до латентного простору (кодування) і, нарешті, намагаються якомога точніше його відбудувати (декодування). Враховуючи природу його латентного простору, варіаційний автокодувальник характеризується дещо іншою цільовою функцією: він має мінімізувати функцію втрат відбудови, як і стандартний автокодувальник. Проте він також враховує розходження Кульбака — Лейблера між латентним простором та вектором нормальних гауссіан.
Формулювання
З формальної точки зору, за заданого набору даних входу , описуваного невідомою функцією ймовірності , та багатовимірного вектору латентного кодування , мета полягає в моделюванні цих даних як розподілу , де визначено як набір параметрів мережі.
Цей розподіл можливо формалізувати як
де є свідченням даних цієї моделі з відособленням, виконаним над неспостережуваними змінними, й відтак подає спільний розподіл даних входу та їхнього латентного подання відповідно до параметрів мережі .
Відповідно до теореми Баєса, це рівняння можливо переписати як
У стандартному варіаційному автокодувальнику ми вважаємо, що має скінченну розмірність, і що є гауссовим розподілом, тоді є сумішшю гауссових розподілів.
Тепер можливо визначити набір взаємозв'язків між даними входу та їх латентним поданням як
- Апріорне
- Правдоподібність
- Апостеріорне
На жаль, обчислення є дуже витратним, і в більшості випадків навіть непіддатливим. Щоби пришвидшити це обчислення й зробити його здійсненним, необхідно ввести додаткову функцію для наближення апостеріорного розподілу:
де визначено як набір дійсних значень, що параметрує .
Таким чином загальну задачу можливо легко перевести до області визначення автокодувальника, в якому розподіл умовної правдоподібності провадиться імовірнісним кодувальником (англ. probabilistic encoder), а наближений апостеріорний розподіл обчислюється імовірнісним декодувальником (англ. probabilistic decoder).
Функція втрат НМЕС
Як і в будь-якій задачі глибокого навчання, щоб уточнювати ваги мережі шляхом зворотного поширення, необхідно визначити диференційовну функцію втрат.
Для варіаційних автокодувальників ідея полягає в спільному мінімізуванні параметрів породжувальної моделі , щоби зменшувати похибку відбудови між входом і виходом мережі, та , щоби мати якомога ближчою до .
Як втрати відбудови, добрими варіантами є середньоквадратична похибка та перехресна ентропія.
Як втрати відстані між цими двома розподілами, добрим вибором, щоби втискувати під , є обернене розходження Кульбака — Лейблера .
Щойно визначені втрати відстані розкриваються як
На цьому етапі можливо переписати це рівняння як
Метою є максимізувати логарифмічну правдоподібність лівої частини цього рівняння для поліпшення якості породжуваних даних та мінімізування відстаней між розподілами справжнього та оцінюваного апостеріорних.
Це є рівнозначним мінімізуванню від'ємної логарифмічної правдоподібності, що є типовою практикою в задачах оптимізації.
Отриману таким чином функцію втрат, яку також називають функцією втрат [en] (англ. evidence lower bound), скорочено НМЕС (англ. ELBO), можливо записати як
Враховуючи властивість невід'ємності розходження Кульбака — Лейблера, буде правильним стверджувати, що
Оптимальними параметрами є ті, які мінімізують цю функцію втрат. Цю задачу можливо узагальнити як
Основна перевага цього формулювання полягає в можливості спільного оптимізування за параметрами та .
Перш ніж застосовувати функцію втрат НМЕС до задачі оптимізування для зворотного поширення градієнта, необхідно зробити її диференційовною, застосувавши так званий трюк перепараметрування (англ. reparameterization trick), щоб усунути стохастичне вибирання з цього формування, й таким чином зробити її диференційовною.
Трюк перепараметрування
Щоб зробити формулювання НМЕС придатним для цілей тренування, необхідно ввести подальшу незначну зміну до формулювання задачі, а також до структури варіаційного автокодувальника.
Стохастичне вибирання є недиференційовною операцією, через яку можливо вибирати з латентного простору й подавати на ймовірнісний декодувальник.
Щоб уможливити застосування процесів зворотного поширення, таких як стохастичний градієнтний спуск, запроваджують трюк перепараметрування.
Основним припущенням про латентний простір є те, що його можливо розглядати як сукупність багатовимірних гауссових розподілів і, отже, можливо описати як
Якщо , а визначено як поелементний добуток, то трюк перепараметрування змінює наведене вище рівняння до
.
Завдяки цьому перетворенню, яке можливо поширити й на інші розподіли, відмінні від гауссового, варіаційний автокодувальник піддається тренуванню, а ймовірнісний кодувальник має навчатися відображувати стиснене подання вхідних даних у два латентні вектори та , тоді як стохастичність залишається виключеною з процесу уточнювання, й вводиться до латентного простору як зовнішній вхід через випадковий вектор .
Різновиди
Існує багато застосувань і розширень варіаційних автокодувальників для пристосовування цієї архітектури до різних областей та поліпшення її продуктивності.
β-ВАК (англ. β-VAE) є втіленням зі зваженим членом розходження Кульбака — Лейблера для автоматичного виявляння та інтерпретування розкладених латентних подань. За допомогою цього втілення можливо нав'язувати розплутування многовиду для значень , більших за одиницю. Автори показали здатність цієї архітектури породжувати високоякісні синтетичні зразки.
Ще одне втілення, назване умовним варіаційним автокодувальником (англ. conditional variational autoencoder), скорочено УВАК (англ. CVAE), як вважають, вставляє міткову інформацію до латентного простору, нав'язуючи детерміноване обмежене подання навчених даних.
Деякі структури безпосередньо займаються якістю породжуваних зразків або втілюють понад одного латентного простору для подальшого поліпшення навчання подань.
Деякі архітектури поєднують структури варіаційних автокодувальників та породжувальних змагальних мереж, щоб отримувати гібридні моделі з високими породжувальними спроможностями.
Див. також
Примітки
- Kingma, Diederik P.; Welling, Max (1 травня 2014). Auto-Encoding Variational Bayes. arXiv:1312.6114 [stat.ML]. (англ.)
- Kramer, Mark A. (1991). . AIChE Journal (англ.). 37 (2): 233—243. doi:10.1002/aic.690370209. Архів оригіналу за 8 червня 2021. Процитовано 3 липня 2021. (англ.)
- Hinton, G. E.; Salakhutdinov, R. R. (28 липня 2006). . Science (англ.). 313 (5786): 504—507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773. Архів оригіналу за 28 червня 2021. Процитовано 3 липня 2021. (англ.)
- Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (13 січня 2017). Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders. arXiv:1611.02648 [cs.LG]. (англ.)
- Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). . 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). с. 16—23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN . S2CID 22681625. Архів оригіналу за 28 серпня 2021. Процитовано 3 липня 2021. (англ.)
- Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). . с. 5888—5897. Архів оригіналу за 24 червня 2021. Процитовано 3 липня 2021. (англ.)
- Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (12 лютого 2017). . Proceedings of the AAAI Conference on Artificial Intelligence (англ.). 31 (1). Архів оригіналу за 16 червня 2021. Процитовано 3 липня 2021. (англ.)
- Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (1 вересня 2019). . Neural Computation. 31 (9): 1891—1914. doi:10.1162/neco_a_01217. PMID 31335290. S2CID 198168155. Архів оригіналу за 16 червня 2021. Процитовано 3 липня 2021. (англ.)
- An, J., & Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability. Special Lecture on IE, 2(1). (англ.)
- Заповніть пропущені параметри: назву і/або авторів. arXiv:1911.12410. (англ.)
- Kingma, Diederik P.; Welling, Max (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 12 (4): 307—392. arXiv:1906.02691. doi:10.1561/2200000056. ISSN 1935-8237. S2CID 174802445. (англ.)
- . Lil'Log (англ.). 12 серпня 2018. Архів оригіналу за 14 травня 2021. Процитовано 3 липня 2021.
- Bengio, Yoshua; Courville, Aaron; Vincent, Pascal (2013). . IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538. doi:10.1109/TPAMI.2013.50. ISSN 1939-3539. PMID 23787338. S2CID 393948. Архів оригіналу за 27 червня 2021. Процитовано 3 липня 2021. (англ.)
- Kingma, Diederik P.; Rezende, Danilo J.; Mohamed, Shakir; Welling, Max (31 жовтня 2014). Semi-Supervised Learning with Deep Generative Models. arXiv:1406.5298 [cs.LG]. (англ.)
- >Higgins, Irina; Matthey, Loic; Pal, Arka; Burgess, Christopher; Glorot, Xavier; Botvinick, Matthew; Mohamed, Shakir; Lerchner, Alexander (4 листопада 2016). (англ.). Архів оригіналу за 20 липня 2021. Процитовано 3 липня 2021. (англ.)
- >Burgess, Christopher P.; Higgins, Irina; Pal, Arka; Matthey, Loic; Watters, Nick; Desjardins, Guillaume; Lerchner, Alexander (10 квітня 2018). Understanding disentangling in β-VAE. arXiv:1804.03599 [stat.ML]. (англ.)
- Sohn, Kihyuk; Lee, Honglak; Yan, Xinchen (1 січня 2015). (PDF) (англ.). Архів оригіналу (PDF) за 9 липня 2021. Процитовано 3 липня 2021. (англ.)
- Dai, Bin; Wipf, David (30 жовтня 2019). Diagnosing and Enhancing VAE Models. arXiv:1903.05789 [cs.LG]. (англ.)
- Dorta, Garoe; Vicente, Sara; Agapito, Lourdes; Campbell, Neill D. F.; Simpson, Ivor (31 липня 2018). Training VAEs Under Structured Residuals. arXiv:1804.01050 [stat.ML]. (англ.)
- Tomczak, Jakub; Welling, Max (31 березня 2018). . International Conference on Artificial Intelligence and Statistics (англ.). PMLR: 1214—1223. arXiv:1705.07120. Архів оригіналу за 24 червня 2021. Процитовано 3 липня 2021. (англ.)
- Razavi, Ali; Oord, Aaron van den; Vinyals, Oriol (2 червня 2019). Generating Diverse High-Fidelity Images with VQ-VAE-2. arXiv:1906.00446 [cs.LG]. (англ.)
- Larsen, Anders Boesen Lindbo; Sønderby, Søren Kaae; Larochelle, Hugo; Winther, Ole (11 червня 2016). . International Conference on Machine Learning (англ.). PMLR: 1558—1566. arXiv:1512.09300. Архів оригіналу за 17 травня 2021. Процитовано 3 липня 2021. (англ.)
- Bao, Jianmin; Chen, Dong; Wen, Fang; Li, Houqiang; Hua, Gang (2017). CVAE-GAN: Fine-Grained Image Generation Through Asymmetric Training. с. 2745—2754. arXiv:1703.10155 [cs.CV]. (англ.)
- >Gao, Rui; Hou, Xingsong; Qin, Jie; Chen, Jiaxin; Liu, Li; Zhu, Fan; Zhang, Zhao; Shao, Ling (2020). . IEEE Transactions on Image Processing. 29: 3665—3680. Bibcode:2020ITIP...29.3665G. doi:10.1109/TIP.2020.2964429. ISSN 1941-0042. PMID 31940538. S2CID 210334032. Архів оригіналу за 28 червня 2021. Процитовано 3 липня 2021. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U mashinnomu navchanni variacijnij avtokoduvalnik angl variational autoencoder vidomij takozh yak VAK angl VAE ce arhitektura shtuchnoyi nejronnoyi merezhi zaprovadzhena ta en sho nalezhit do simejstv imovirnisnih grafovih modelej ta en Yiyi chasto asociyuyut iz modellyu avtokoduvalnika cherez yiyi arhitekturnu sporidnenist ale mizh nimi ye znachni vidminnosti yak u cili tak i v matematichnomu formulyuvanni Variacijni avtokoduvalniki priznacheno dlya stiskannya informaciyi vhodu do obmezhenogo bagatovimirnogo latentnogo rozpodilu koduvannya shobi vidbudovuvati yiyi yakomoga tochnishe dekoduvannya Hocha pervinno cej tip modeli bulo rozrobleno dlya nekerovanogo navchannya jogo diyevist bulo dovedeno j v inshih oblastyah mashinnogo navchannya takih yak napivkerovane ta kerovane navchannya ArhitekturaVariacijni avtokoduvalniki ye variacijnimi bayesovimi metodami z bagatovimirnim rozpodilom yak apriorne j aposteriornim nablizhuvanim shtuchnoyu nejronnoyu merezheyu sho utvoryuyut tak zvanu strukturu variacijnogo koduvalnika dekoduvalnika Standartnij koduvalnik ye shtuchnoyu nejronnoyu merezheyu zdatnoyu zvoditi svoyu vhidnu informaciyu do najvuzhchogo podannya sho nazivayut latentnim prostorom Vin yavlyaye soboyu pershu polovinu arhitekturi yak avtokoduvalnika tak i variacijnogo avtokoduvalnika dlya pershogo vihodom ye fiksovanij vektor shtuchnih nejroniv a v drugomu informaciya vihodu stiskayetsya do jmovirnisnogo latentnogo prostoru sho vse she skladayetsya zi shtuchnih nejroniv Prote v arhitekturi variacijnogo avtokoduvalnika voni predstavlyayut i yih rozglyadayut yak dva rizni vektori odnakovoyi vimirnosti sho podayut vektor serednih znachen ta vektor standartnih vidhilen vidpovidno Standartnij dekoduvalnik vse she ye shtuchnoyu nejronnoyu merezheyu priznachenoyu viddzerkalyuvati arhitekturu koduvalnika Vin bere na vhodi stisnenu informaciyu sho nadhodit iz latentnogo prostoru a potim rozgortaye yiyi viroblyayuchi vihid yakomoga blizhchij do vhodu koduvalnika I hocha dlya avtokoduvalnika vhid dekoduvalnika ye prosto vektorom dijsnih znachen fiksovanoyi dovzhini dlya variacijnogo avtokoduvalnika neobhidno vvesti promizhnij etap vrahovuyuchi jmovirnisnu prirodu latentnogo prostoru mozhlivo rozglyadati jogo yak bagatovimirnij gaussiv vektor Za cogo pripushennya j za dopomogoyu metodiki vidomoyi yak pereparametruvalnij tryuk angl reparametrization trick mozhlivo vibirati sukupnosti z cogo latentnogo prostoru j rozglyadati yih tochno yak vektor dijsnih znachen fiksovanoyi dovzhini Z sistemnoyi tochki zoru modeli yak standartnogo tak i variacijnogo avtokoduvalnikiv otrimuyut yak vhid nabir danih velikoyi rozmirnosti Potim voni adaptivno stiskayut jogo do latentnogo prostoru koduvannya i nareshti namagayutsya yakomoga tochnishe jogo vidbuduvati dekoduvannya Vrahovuyuchi prirodu jogo latentnogo prostoru variacijnij avtokoduvalnik harakterizuyetsya desho inshoyu cilovoyu funkciyeyu vin maye minimizuvati funkciyu vtrat vidbudovi yak i standartnij avtokoduvalnik Prote vin takozh vrahovuye rozhodzhennya Kulbaka Lejblera mizh latentnim prostorom ta vektorom normalnih gaussian FormulyuvannyaBazova shema variacijnogo avtokoduvalnika Model otrimuye x displaystyle mathbf x yak vhid Koduvalnik stiskaye jogo do latentnogo prostoru Dekoduvalnik otrimuye yak vhid informaciyu vibranu z cogo latentnogo prostoru j viroblyaye x displaystyle mathbf x sho ye yakomoga podibnishim do x displaystyle mathbf x Z formalnoyi tochki zoru za zadanogo naboru danih vhodu x displaystyle mathbf x opisuvanogo nevidomoyu funkciyeyu jmovirnosti P x displaystyle P mathbf x ta bagatovimirnogo vektoru latentnogo koduvannya z displaystyle mathbf z meta polyagaye v modelyuvanni cih danih yak rozpodilu p8 x displaystyle p theta mathbf x de 8 displaystyle theta viznacheno yak nabir parametriv merezhi Cej rozpodil mozhlivo formalizuvati yak p8 x zp8 x z dz displaystyle p theta mathbf x int mathbf z p theta mathbf x z d mathbf z de p8 displaystyle p theta ye svidchennyam danih ciyeyi modeli z vidosoblennyam vikonanim nad nesposterezhuvanimi zminnimi j vidtak p8 x z displaystyle p theta mathbf x z podaye spilnij rozpodil danih vhodu ta yihnogo latentnogo podannya vidpovidno do parametriv merezhi 8 displaystyle theta Vidpovidno do teoremi Bayesa ce rivnyannya mozhlivo perepisati yak p8 x zp8 x z p8 z dz displaystyle p theta mathbf x int mathbf z p theta mathbf x z p theta mathbf z d mathbf z U standartnomu variacijnomu avtokoduvalniku mi vvazhayemo sho z displaystyle mathbf z maye skinchennu rozmirnist i sho p8 x z displaystyle p theta mathbf x z ye gaussovim rozpodilom todi p8 x displaystyle p theta mathbf x ye sumishshyu gaussovih rozpodiliv Teper mozhlivo viznachiti nabir vzayemozv yazkiv mizh danimi vhodu ta yih latentnim podannyam yak Apriorne p8 z displaystyle p theta mathbf z Pravdopodibnist p8 x z displaystyle p theta mathbf x mathbf z Aposteriorne p8 z x displaystyle p theta mathbf z mathbf x Na zhal obchislennya p8 x displaystyle p theta mathbf x ye duzhe vitratnim i v bilshosti vipadkiv navit nepiddatlivim Shobi prishvidshiti ce obchislennya j zrobiti jogo zdijsnennim neobhidno vvesti dodatkovu funkciyu dlya nablizhennya aposteriornogo rozpodilu qF z x p8 z x displaystyle q Phi mathbf z x approx p theta mathbf z x de F displaystyle Phi viznacheno yak nabir dijsnih znachen sho parametruye q displaystyle q Takim chinom zagalnu zadachu mozhlivo legko perevesti do oblasti viznachennya avtokoduvalnika v yakomu rozpodil umovnoyi pravdopodibnosti p8 x z displaystyle p theta mathbf x mathbf z provaditsya imovirnisnim koduvalnikom angl probabilistic encoder a nablizhenij aposteriornij rozpodil qF z x displaystyle q Phi mathbf z x obchislyuyetsya imovirnisnim dekoduvalnikom angl probabilistic decoder Funkciya vtrat NMESYak i v bud yakij zadachi glibokogo navchannya shob utochnyuvati vagi merezhi shlyahom zvorotnogo poshirennya neobhidno viznachiti diferencijovnu funkciyu vtrat Dlya variacijnih avtokoduvalnikiv ideya polyagaye v spilnomu minimizuvanni parametriv porodzhuvalnoyi modeli 8 displaystyle theta shobi zmenshuvati pohibku vidbudovi mizh vhodom i vihodom merezhi ta F displaystyle Phi shobi mati qF z x displaystyle q Phi mathbf z x yakomoga blizhchoyu do p8 z x displaystyle p theta mathbf z mathbf x Yak vtrati vidbudovi dobrimi variantami ye serednokvadratichna pohibka ta perehresna entropiya Yak vtrati vidstani mizh cimi dvoma rozpodilami dobrim viborom shobi vtiskuvati qF z x displaystyle q Phi mathbf z x pid p8 z x displaystyle p theta mathbf z mathbf x ye obernene rozhodzhennya Kulbaka Lejblera DKL qF z x p8 z x displaystyle D KL q Phi mathbf z x p theta mathbf z x Shojno viznacheni vtrati vidstani rozkrivayutsya yak DKL qF z x p8 z x qF z x log qF z x p8 z x dz qF z x log qF z x p8 x p8 z x dz qF z x log p8 x log qF z x p8 z x dz log p8 x qF z x log qF z x p8 z x dz log p8 x qF z x log qF z x p8 x z p8 z dz log p8 x Ez qF z x log qF z x p8 z log p8 x z log p8 x DKL qF z x p8 z Ez qF z x log p8 x z displaystyle begin aligned D KL q Phi mathbf z x p theta mathbf z x amp int q Phi mathbf z x log frac q Phi mathbf z x p theta mathbf z x d mathbf z amp int q Phi mathbf z x log frac q Phi mathbf z x p theta mathbf x p theta mathbf z x d mathbf z amp int q Phi mathbf z x left log p theta mathbf x log frac q Phi mathbf z x p theta mathbf z x right d mathbf z amp log p theta mathbf x int q Phi mathbf z x log frac q Phi mathbf z x p theta mathbf z x d mathbf z amp log p theta mathbf x int q Phi mathbf z x log frac q Phi mathbf z x p theta mathbf x z p theta mathbf z d mathbf z amp log p theta mathbf x E mathbf z sim q Phi mathbf z x log frac q Phi mathbf z x p theta mathbf z log p theta mathbf x z amp log p theta mathbf x D KL q Phi mathbf z x p theta mathbf z E mathbf z sim q Phi mathbf z x log p theta mathbf x z end aligned Na comu etapi mozhlivo perepisati ce rivnyannya yak log p8 x DKL qF z x p8 z x Ez qF z x log p8 x z DKL qF z x p8 z displaystyle log p theta mathbf x D KL q Phi mathbf z x p theta mathbf z x E mathbf z sim q Phi mathbf z x log p theta mathbf x z D KL q Phi mathbf z x p theta mathbf z Metoyu ye maksimizuvati logarifmichnu pravdopodibnist livoyi chastini cogo rivnyannya dlya polipshennya yakosti porodzhuvanih danih ta minimizuvannya vidstanej mizh rozpodilami spravzhnogo ta ocinyuvanogo aposteriornih Ce ye rivnoznachnim minimizuvannyu vid yemnoyi logarifmichnoyi pravdopodibnosti sho ye tipovoyu praktikoyu v zadachah optimizaciyi Otrimanu takim chinom funkciyu vtrat yaku takozh nazivayut funkciyeyu vtrat en angl evidence lower bound skorocheno NMES angl ELBO mozhlivo zapisati yak L8 F log p8 x DKL qF z x p8 z x Ez qF z x log p8 x z DKL qF z x p8 z displaystyle L theta Phi log p theta mathbf x D KL q Phi mathbf z x p theta mathbf z x E mathbf z sim q Phi mathbf z x log p theta mathbf x z D KL q Phi mathbf z x p theta mathbf z Vrahovuyuchi vlastivist nevid yemnosti rozhodzhennya Kulbaka Lejblera bude pravilnim stverdzhuvati sho L8 F log p8 x DKL qF z x p8 z x log p8 x displaystyle L theta Phi log p theta mathbf x D KL q Phi mathbf z x p theta mathbf z x leq log p theta mathbf x Optimalnimi parametrami ye ti yaki minimizuyut cyu funkciyu vtrat Cyu zadachu mozhlivo uzagalniti yak 8 F argmin8 FL8 F displaystyle theta Phi underset theta Phi argmin L theta Phi Osnovna perevaga cogo formulyuvannya polyagaye v mozhlivosti spilnogo optimizuvannya za parametrami 8 displaystyle theta ta F displaystyle Phi Persh nizh zastosovuvati funkciyu vtrat NMES do zadachi optimizuvannya dlya zvorotnogo poshirennya gradiyenta neobhidno zrobiti yiyi diferencijovnoyu zastosuvavshi tak zvanij tryuk pereparametruvannya angl reparameterization trick shob usunuti stohastichne vibirannya z cogo formuvannya j takim chinom zrobiti yiyi diferencijovnoyu Tryuk pereparametruvannyaShema tryuku pereparametruvannya Zminnu vipadkovosti e displaystyle mathbf varepsilon vvodyat do latentnogo prostoru z displaystyle mathbf z yak zovnishnij vhid Takim chinom mozhlivo zvorotno poshiryuvati gradiyent bez zaluchennya stohastichnoyi zminnoyi pid chas utochnennya Shob zrobiti formulyuvannya NMES pridatnim dlya cilej trenuvannya neobhidno vvesti podalshu neznachnu zminu do formulyuvannya zadachi a takozh do strukturi variacijnogo avtokoduvalnika Stohastichne vibirannya ye nediferencijovnoyu operaciyeyu cherez yaku mozhlivo vibirati z latentnogo prostoru j podavati na jmovirnisnij dekoduvalnik Shob umozhliviti zastosuvannya procesiv zvorotnogo poshirennya takih yak stohastichnij gradiyentnij spusk zaprovadzhuyut tryuk pereparametruvannya Osnovnim pripushennyam pro latentnij prostir ye te sho jogo mozhlivo rozglyadati yak sukupnist bagatovimirnih gaussovih rozpodiliv i otzhe mozhlivo opisati yak z qϕ z x N m s2 displaystyle mathbf z sim q phi mathbf z vert mathbf x mathcal N boldsymbol mu boldsymbol sigma 2 Shema variacijnogo avtokoduvalnika pislya tryuku pereparametruvannya Yaksho ϵ N 0 I displaystyle boldsymbol epsilon sim mathcal N 0 boldsymbol I a displaystyle odot viznacheno yak poelementnij dobutok to tryuk pereparametruvannya zminyuye navedene vishe rivnyannya do z m s ϵ displaystyle mathbf z boldsymbol mu boldsymbol sigma odot boldsymbol epsilon Zavdyaki comu peretvorennyu yake mozhlivo poshiriti j na inshi rozpodili vidminni vid gaussovogo variacijnij avtokoduvalnik piddayetsya trenuvannyu a jmovirnisnij koduvalnik maye navchatisya vidobrazhuvati stisnene podannya vhidnih danih u dva latentni vektori m displaystyle boldsymbol mu ta s displaystyle boldsymbol sigma todi yak stohastichnist zalishayetsya viklyuchenoyu z procesu utochnyuvannya j vvoditsya do latentnogo prostoru yak zovnishnij vhid cherez vipadkovij vektor ϵ displaystyle boldsymbol epsilon RiznovidiIsnuye bagato zastosuvan i rozshiren variacijnih avtokoduvalnikiv dlya pristosovuvannya ciyeyi arhitekturi do riznih oblastej ta polipshennya yiyi produktivnosti b VAK angl b VAE ye vtilennyam zi zvazhenim chlenom rozhodzhennya Kulbaka Lejblera dlya avtomatichnogo viyavlyannya ta interpretuvannya rozkladenih latentnih podan Za dopomogoyu cogo vtilennya mozhlivo nav yazuvati rozplutuvannya mnogovidu dlya znachen b displaystyle beta bilshih za odinicyu Avtori pokazali zdatnist ciyeyi arhitekturi porodzhuvati visokoyakisni sintetichni zrazki She odne vtilennya nazvane umovnim variacijnim avtokoduvalnikom angl conditional variational autoencoder skorocheno UVAK angl CVAE yak vvazhayut vstavlyaye mitkovu informaciyu do latentnogo prostoru nav yazuyuchi determinovane obmezhene podannya navchenih danih Deyaki strukturi bezposeredno zajmayutsya yakistyu porodzhuvanih zrazkiv abo vtilyuyut ponad odnogo latentnogo prostoru dlya podalshogo polipshennya navchannya podan Deyaki arhitekturi poyednuyut strukturi variacijnih avtokoduvalnikiv ta porodzhuvalnih zmagalnih merezh shob otrimuvati gibridni modeli z visokimi porodzhuvalnimi spromozhnostyami Div takozhAvtokoduvalnik Gliboke navchannya en Zvorotne poshirennya Navchannya podan en Porodzhuvalna zmagalna merezha Shtuchna nejronna merezhaPrimitkiKingma Diederik P Welling Max 1 travnya 2014 Auto Encoding Variational Bayes arXiv 1312 6114 stat ML angl Kramer Mark A 1991 AIChE Journal angl 37 2 233 243 doi 10 1002 aic 690370209 Arhiv originalu za 8 chervnya 2021 Procitovano 3 lipnya 2021 angl Hinton G E Salakhutdinov R R 28 lipnya 2006 Science angl 313 5786 504 507 Bibcode 2006Sci 313 504H doi 10 1126 science 1127647 PMID 16873662 S2CID 1658773 Arhiv originalu za 28 chervnya 2021 Procitovano 3 lipnya 2021 angl Dilokthanakul Nat Mediano Pedro A M Garnelo Marta Lee Matthew C H Salimbeni Hugh Arulkumaran Kai Shanahan Murray 13 sichnya 2017 Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders arXiv 1611 02648 cs LG angl Hsu Wei Ning Zhang Yu Glass James December 2017 2017 IEEE Automatic Speech Recognition and Understanding Workshop ASRU s 16 23 arXiv 1707 06265 doi 10 1109 ASRU 2017 8268911 ISBN 978 1 5090 4788 8 S2CID 22681625 Arhiv originalu za 28 serpnya 2021 Procitovano 3 lipnya 2021 angl Ehsan Abbasnejad M Dick Anthony van den Hengel Anton 2017 s 5888 5897 Arhiv originalu za 24 chervnya 2021 Procitovano 3 lipnya 2021 angl Xu Weidi Sun Haoze Deng Chao Tan Ying 12 lyutogo 2017 Proceedings of the AAAI Conference on Artificial Intelligence angl 31 1 Arhiv originalu za 16 chervnya 2021 Procitovano 3 lipnya 2021 angl Kameoka Hirokazu Li Li Inoue Shota Makino Shoji 1 veresnya 2019 Neural Computation 31 9 1891 1914 doi 10 1162 neco a 01217 PMID 31335290 S2CID 198168155 Arhiv originalu za 16 chervnya 2021 Procitovano 3 lipnya 2021 angl An J amp Cho S 2015 Variational autoencoder based anomaly detection using reconstruction probability Special Lecture on IE 2 1 angl Zapovnit propusheni parametri nazvu i abo avtoriv arXiv 1911 12410 angl Kingma Diederik P Welling Max 2019 An Introduction to Variational Autoencoders Foundations and Trends in Machine Learning 12 4 307 392 arXiv 1906 02691 doi 10 1561 2200000056 ISSN 1935 8237 S2CID 174802445 angl Lil Log angl 12 serpnya 2018 Arhiv originalu za 14 travnya 2021 Procitovano 3 lipnya 2021 Bengio Yoshua Courville Aaron Vincent Pascal 2013 IEEE Transactions on Pattern Analysis and Machine Intelligence 35 8 1798 1828 arXiv 1206 5538 doi 10 1109 TPAMI 2013 50 ISSN 1939 3539 PMID 23787338 S2CID 393948 Arhiv originalu za 27 chervnya 2021 Procitovano 3 lipnya 2021 angl Kingma Diederik P Rezende Danilo J Mohamed Shakir Welling Max 31 zhovtnya 2014 Semi Supervised Learning with Deep Generative Models arXiv 1406 5298 cs LG angl gt Higgins Irina Matthey Loic Pal Arka Burgess Christopher Glorot Xavier Botvinick Matthew Mohamed Shakir Lerchner Alexander 4 listopada 2016 angl Arhiv originalu za 20 lipnya 2021 Procitovano 3 lipnya 2021 angl gt Burgess Christopher P Higgins Irina Pal Arka Matthey Loic Watters Nick Desjardins Guillaume Lerchner Alexander 10 kvitnya 2018 Understanding disentangling in b VAE arXiv 1804 03599 stat ML angl Sohn Kihyuk Lee Honglak Yan Xinchen 1 sichnya 2015 PDF angl Arhiv originalu PDF za 9 lipnya 2021 Procitovano 3 lipnya 2021 angl Dai Bin Wipf David 30 zhovtnya 2019 Diagnosing and Enhancing VAE Models arXiv 1903 05789 cs LG angl Dorta Garoe Vicente Sara Agapito Lourdes Campbell Neill D F Simpson Ivor 31 lipnya 2018 Training VAEs Under Structured Residuals arXiv 1804 01050 stat ML angl Tomczak Jakub Welling Max 31 bereznya 2018 International Conference on Artificial Intelligence and Statistics angl PMLR 1214 1223 arXiv 1705 07120 Arhiv originalu za 24 chervnya 2021 Procitovano 3 lipnya 2021 angl Razavi Ali Oord Aaron van den Vinyals Oriol 2 chervnya 2019 Generating Diverse High Fidelity Images with VQ VAE 2 arXiv 1906 00446 cs LG angl Larsen Anders Boesen Lindbo Sonderby Soren Kaae Larochelle Hugo Winther Ole 11 chervnya 2016 International Conference on Machine Learning angl PMLR 1558 1566 arXiv 1512 09300 Arhiv originalu za 17 travnya 2021 Procitovano 3 lipnya 2021 angl Bao Jianmin Chen Dong Wen Fang Li Houqiang Hua Gang 2017 CVAE GAN Fine Grained Image Generation Through Asymmetric Training s 2745 2754 arXiv 1703 10155 cs CV angl gt Gao Rui Hou Xingsong Qin Jie Chen Jiaxin Liu Li Zhu Fan Zhang Zhao Shao Ling 2020 IEEE Transactions on Image Processing 29 3665 3680 Bibcode 2020ITIP 29 3665G doi 10 1109 TIP 2020 2964429 ISSN 1941 0042 PMID 31940538 S2CID 210334032 Arhiv originalu za 28 chervnya 2021 Procitovano 3 lipnya 2021 angl