У машинному навчанні глибо́ка мере́жа перекона́нь (ГМП, англ. deep belief network, DBN, також іноді глиби́нна мере́жа перекона́нь) — це породжувальна графова модель або, інакше, клас глибоких нейронних мереж, що складено з кількох шарів латентних змінних («прихованих вузлів»), зі з'єднаннями між шарами, але не між вузлами всередині кожного шару.
При тренуванні на наборі прикладів без керування ГМП може навчатися ймовірнісно відбудовувати свої входи. Шари тоді діють як виявлячі ознак. Після цього етапу навчання ГМП можливо тренувати далі з керуванням для виконання класифікування.
ГМП можливо розглядати як композицію простих некерованих мереж, таких як обмежені машини Больцмана (ОМБ) або автокодувальники, в якій прихований шар кожної підмережі слугує видимим шаром для наступної. ОМБ — це неорієнтована породжувальна модель на основі енергії з «видимим» шаром входу та прихованим шаром і зв'язками між шарами, але не всередині них. Така композиція веде до швидкої пошарової процедури некерованого тренування, де контрастове розходження застосовують по черзі до кожної підмережі, починаючи з «найнижчої» пари шарів (найнижчий видимий шар — це тренувальний набір).
Спостереження щодо того, що ГМП можливо тренувати жадібно, по одному шару за раз, привело до створення одного з перших дієвих алгоритмів глибокого навчання. Загалом існує багато привабливих втілень та використань ГМП у реальних застосуваннях та сценаріях (наприклад, електроенцефалографії, [en]).
Тренування
Метод тренування ОМБ, запропонований Джефрі Гінтоном для використання в тренуванні моделей [en]», називають контрастовим розходженням (КР, англ. contrastive divergence, CD). КР забезпечує наближення методу максимальної правдоподібності, застосовувати який для навчання ваг було би ідеально. Під час тренування однієї ОМБ уточнювання ваг виконують градієнтним спуском за таким рівнянням:
де — ймовірність видимого вектора, задана як . це [en] (яку використовують для нормування), а — функція енергії, приписаної станові мережі. Нижча енергія вказує на те, що мережа має «бажанішу» конфігурацію. Градієнт має простий вигляд , де подають усереднення відносно розподілу . Проблема виникає у вибиранні , оскільки воно вимагає розширеного навперемінного [en]. КР замінює цей крок виконанням альтернативного ґіббзового вибирання для кроків (значення працюють добре). Після кроків дані вибирають, і цю вибірку використовують замість . Процедура КР працює наступним чином:
- Встановити видимі вузли у значення тренувального вектора.
- Уточнити приховані вузли паралельним чином, враховуючи видимі вузли: . — сигмоїдна функція, а — зміщення .
- Уточнити видимі вузли паралельним чином, враховуючи приховані вузли: . — зміщення . Це називають етапом «відбудовування».
- Переуточнити приховані вузли паралельним чином, враховуючи відбудовані видимі вузли, використовуючи те саме рівняння, що й у кроці 2.
- Виконати уточнення ваг: .
Щойно ОМБ натреновано, поверх неї «накладають» іншу ОМБ, беручи її вхід з останнього натренованого рівня. Новий видимий шар встановлюють у значення тренувального вектора, а значення для вузлів у вже навчених шарах встановлюють з використанням поточних ваг і зміщень. Потім нову ОМБ тренують за описаною вище процедурою. Весь цей процес повторюють, доки не буде досягнуто бажаного критерію зупинки.
Хоч наближення КР до максимальної правдоподібності й грубе (не слідує градієнтові жодної функції), воно емпірично ефективне.
Див. також
Примітки
- Іванченко, А. С (2022). Класифікація гістологічних знімків пухлин молочної залози на основі локальної порогової бінаризації та машинного навчання (PDF) (магістерська дисертація) (укр.). Київ: НТУУ «КПІ». Процитовано 30 липня 2023.
- Hinton G (2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
- Hinton GE, Osindero S, Teh YW (July 2006). A fast learning algorithm for deep belief nets (PDF). Neural Computation (англ.). 18 (7): 1527—54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
- Bengio Y, Lamblin P, Popovici D, Larochelle H (2007). Greedy Layer-Wise Training of Deep Networks (PDF). [en] (англ.).
- Bengio, Y. (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2: 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006.
- Movahedi F, Coyle JL, Sejdic E (May 2018). Deep Belief Networks for Electroencephalography: A Review of Recent Contributions and Future Outlooks. IEEE Journal of Biomedical and Health Informatics (амер.). 22 (3): 642—652. doi:10.1109/jbhi.2017.2727218. PMC 5967386. PMID 28715343.
- Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). Neural network and deep-learning algorithms used in QSAR studies: merits and drawbacks. Drug Discovery Today (англ.). 23 (10): 1784—1790. doi:10.1016/j.drudis.2018.06.016. PMID 29936244. S2CID 49418479.
- Ghasemi, Pérez-Sánchez; Mehri, fassihi (2016). The Role of Different Sampling Methods in Improving Biological Activity Prediction Using Deep Belief Network. Journal of Computational Chemistry (англ.). 38 (10): 1—8. doi:10.1002/jcc.24671. PMID 27862046. S2CID 12077015.
- Gawehn E, Hiss JA, Schneider G (January 2016). Deep Learning in Drug Discovery. Molecular Informatics (англ.). 35 (1): 3—14. doi:10.1002/minf.201501008. PMID 27491648. S2CID 10574953.
- Hinton GE (2002). Training Product of Experts by Minimizing Contrastive Divergence (PDF). Neural Computation (англ.). 14 (8): 1771—1800. CiteSeerX 10.1.1.35.8613. doi:10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
- Hinton GE (2010). A Practical Guide to Training Restricted Boltzmann Machines. Tech. Rep. UTML TR 2010-003 (англ.).
- Fischer A, Igel C (2014). (PDF). Pattern Recognition (англ.). 47 (1): 25—39. Bibcode:2014PatRe..47...25F. CiteSeerX 10.1.1.716.8647. doi:10.1016/j.patcog.2013.05.025. Архів оригіналу (PDF) за 10 червня 2015. Процитовано 2 липня 2017.
- Bengio Y (2009). (PDF). Foundations and Trends in Machine Learning (англ.). 2 (1): 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 2 липня 2017.
Посилання
- Deep Belief Networks. Deep Learning Tutorials (англ.).
- . Deeplearning4j Tutorials (англ.). Архів оригіналу за 3 жовтня 2016. Процитовано 22 лютого 2015.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U mashinnomu navchanni glibo ka mere zha perekona n GMP angl deep belief network DBN takozh inodi glibi nna mere zha perekona n ce porodzhuvalna grafova model abo inakshe klas glibokih nejronnih merezh sho skladeno z kilkoh shariv latentnih zminnih prihovanih vuzliv zi z yednannyami mizh sharami ale ne mizh vuzlami vseredini kozhnogo sharu Shematichnij oglyad glibokoyi merezhi perekonan Strilki podayut spryamovani z yednannya v grafovij modeli yaku podaye cya merezha Pri trenuvanni na nabori prikladiv bez keruvannya GMP mozhe navchatisya jmovirnisno vidbudovuvati svoyi vhodi Shari todi diyut yak viyavlyachi oznak Pislya cogo etapu navchannya GMP mozhlivo trenuvati dali z keruvannyam dlya vikonannya klasifikuvannya GMP mozhlivo rozglyadati yak kompoziciyu prostih nekerovanih merezh takih yak obmezheni mashini Bolcmana OMB abo avtokoduvalniki v yakij prihovanij shar kozhnoyi pidmerezhi sluguye vidimim sharom dlya nastupnoyi OMB ce neoriyentovana porodzhuvalna model na osnovi energiyi z vidimim sharom vhodu ta prihovanim sharom i zv yazkami mizh sharami ale ne vseredini nih Taka kompoziciya vede do shvidkoyi posharovoyi proceduri nekerovanogo trenuvannya de kontrastove rozhodzhennya zastosovuyut po cherzi do kozhnoyi pidmerezhi pochinayuchi z najnizhchoyi pari shariv najnizhchij vidimij shar ce trenuvalnij nabir Sposterezhennya shodo togo sho GMP mozhlivo trenuvati zhadibno po odnomu sharu za raz privelo do stvorennya odnogo z pershih diyevih algoritmiv glibokogo navchannya 6 Zagalom isnuye bagato privablivih vtilen ta vikoristan GMP u realnih zastosuvannyah ta scenariyah napriklad elektroencefalografiyi en TrenuvannyaObmezhena mashina Bolcmana OMB z povnoz yednanimi vidimimi ta prihovanimi vuzlami Zauvazhte sho z yednan prihovanij prihovanij ta vidimij vidimij nemaye Metod trenuvannya OMB zaproponovanij Dzhefri Gintonom dlya vikoristannya v trenuvanni modelej en nazivayut kontrastovim rozhodzhennyam KR angl contrastive divergence CD KR zabezpechuye nablizhennya metodu maksimalnoyi pravdopodibnosti zastosovuvati yakij dlya navchannya vag bulo bi idealno Pid chas trenuvannya odniyeyi OMB utochnyuvannya vag vikonuyut gradiyentnim spuskom za takim rivnyannyam w i j t 1 w i j t h log p v w i j displaystyle w ij t 1 w ij t eta frac partial log p v partial w ij de p v displaystyle p v jmovirnist vidimogo vektora zadana yak p v 1 Z h e E v h displaystyle p v frac 1 Z sum h e E v h Z displaystyle Z ce en yaku vikoristovuyut dlya normuvannya a E v h displaystyle E v h funkciya energiyi pripisanoyi stanovi merezhi Nizhcha energiya vkazuye na te sho merezha maye bazhanishu konfiguraciyu Gradiyent log p v w i j displaystyle frac partial log p v partial w ij maye prostij viglyad v i h j data v i h j model displaystyle langle v i h j rangle text data langle v i h j rangle text model de p displaystyle langle cdots rangle p podayut userednennya vidnosno rozpodilu p displaystyle p Problema vinikaye u vibiranni v i h j model displaystyle langle v i h j rangle text model oskilki vono vimagaye rozshirenogo navpereminnogo en KR zaminyuye cej krok vikonannyam alternativnogo gibbzovogo vibirannya dlya n displaystyle n krokiv znachennya n 1 displaystyle n 1 pracyuyut dobre Pislya n displaystyle n krokiv dani vibirayut i cyu vibirku vikoristovuyut zamist v i h j model displaystyle langle v i h j rangle text model Procedura KR pracyuye nastupnim chinom Vstanoviti vidimi vuzli u znachennya trenuvalnogo vektora Utochniti prihovani vuzli paralelnim chinom vrahovuyuchi vidimi vuzli p h j 1 V s b j i v i w i j displaystyle p h j 1 mid textbf V sigma b j sum i v i w ij s displaystyle sigma sigmoyidna funkciya a b j displaystyle b j zmishennya h j displaystyle h j Utochniti vidimi vuzli paralelnim chinom vrahovuyuchi prihovani vuzli p v i 1 H s a i j h j w i j displaystyle p v i 1 mid textbf H sigma a i sum j h j w ij a i displaystyle a i zmishennya v i displaystyle v i Ce nazivayut etapom vidbudovuvannya Pereutochniti prihovani vuzli paralelnim chinom vrahovuyuchi vidbudovani vidimi vuzli vikoristovuyuchi te same rivnyannya sho j u kroci 2 Vikonati utochnennya vag D w i j v i h j data v i h j reconstruction displaystyle Delta w ij propto langle v i h j rangle text data langle v i h j rangle text reconstruction Shojno OMB natrenovano poverh neyi nakladayut inshu OMB beruchi yiyi vhid z ostannogo natrenovanogo rivnya Novij vidimij shar vstanovlyuyut u znachennya trenuvalnogo vektora a znachennya dlya vuzliv u vzhe navchenih sharah vstanovlyuyut z vikoristannyam potochnih vag i zmishen Potim novu OMB trenuyut za opisanoyu vishe proceduroyu Ves cej proces povtoryuyut doki ne bude dosyagnuto bazhanogo kriteriyu zupinki Hoch nablizhennya KR do maksimalnoyi pravdopodibnosti j grube ne sliduye gradiyentovi zhodnoyi funkciyi vono empirichno efektivne Div takozhSkladena obmezhena mashina Bolcmana Bayesova merezha Gliboke navchannya en en PrimitkiIvanchenko A S 2022 Klasifikaciya gistologichnih znimkiv puhlin molochnoyi zalozi na osnovi lokalnoyi porogovoyi binarizaciyi ta mashinnogo navchannya PDF magisterska disertaciya ukr Kiyiv NTUU KPI Procitovano 30 lipnya 2023 Hinton G 2009 Deep belief networks Scholarpedia angl 4 5 5947 Bibcode 2009SchpJ 4 5947H doi 10 4249 scholarpedia 5947 Hinton GE Osindero S Teh YW July 2006 A fast learning algorithm for deep belief nets PDF Neural Computation angl 18 7 1527 54 CiteSeerX 10 1 1 76 1541 doi 10 1162 neco 2006 18 7 1527 PMID 16764513 S2CID 2309950 Bengio Y Lamblin P Popovici D Larochelle H 2007 Greedy Layer Wise Training of Deep Networks PDF en angl Bengio Y 2009 Learning Deep Architectures for AI PDF Foundations and Trends in Machine Learning angl 2 1 127 CiteSeerX 10 1 1 701 9550 doi 10 1561 2200000006 Movahedi F Coyle JL Sejdic E May 2018 Deep Belief Networks for Electroencephalography A Review of Recent Contributions and Future Outlooks IEEE Journal of Biomedical and Health Informatics amer 22 3 642 652 doi 10 1109 jbhi 2017 2727218 PMC 5967386 PMID 28715343 Ghasemi Perez Sanchez Mehri Perez Garrido 2018 Neural network and deep learning algorithms used in QSAR studies merits and drawbacks Drug Discovery Today angl 23 10 1784 1790 doi 10 1016 j drudis 2018 06 016 PMID 29936244 S2CID 49418479 Ghasemi Perez Sanchez Mehri fassihi 2016 The Role of Different Sampling Methods in Improving Biological Activity Prediction Using Deep Belief Network Journal of Computational Chemistry angl 38 10 1 8 doi 10 1002 jcc 24671 PMID 27862046 S2CID 12077015 Gawehn E Hiss JA Schneider G January 2016 Deep Learning in Drug Discovery Molecular Informatics angl 35 1 3 14 doi 10 1002 minf 201501008 PMID 27491648 S2CID 10574953 Hinton GE 2002 Training Product of Experts by Minimizing Contrastive Divergence PDF Neural Computation angl 14 8 1771 1800 CiteSeerX 10 1 1 35 8613 doi 10 1162 089976602760128018 PMID 12180402 S2CID 207596505 Hinton GE 2010 A Practical Guide to Training Restricted Boltzmann Machines Tech Rep UTML TR 2010 003 angl Fischer A Igel C 2014 PDF Pattern Recognition angl 47 1 25 39 Bibcode 2014PatRe 47 25F CiteSeerX 10 1 1 716 8647 doi 10 1016 j patcog 2013 05 025 Arhiv originalu PDF za 10 chervnya 2015 Procitovano 2 lipnya 2017 Bengio Y 2009 PDF Foundations and Trends in Machine Learning angl 2 1 1 127 CiteSeerX 10 1 1 701 9550 doi 10 1561 2200000006 Arhiv originalu PDF za 4 bereznya 2016 Procitovano 2 lipnya 2017 PosilannyaDeep Belief Networks Deep Learning Tutorials angl Deeplearning4j Tutorials angl Arhiv originalu za 3 zhovtnya 2016 Procitovano 22 lyutogo 2015