Маши́на Бо́льцмана (також звана моде́ллю Ше́ррінгтона — Кіркпа́тріка із зо́внішнім по́лем та стохасти́чною моде́ллю І́зінга — Ле́нца — Лі́ттла, англ. Boltzmann machine, Sherrington–Kirkpatrick model with external field, stochastic Ising–Lenz–Little model) — це стохастична модель спінового скла із зовнішнім полем, тобто [en], що є стохастичною моделлю Ізінга. Це методика статистичної фізики, яку застосовують у контексті когнітивної науки. Її також класифікують як марковське випадкове поле.
Машини Больцмана теоретично захопливі через локальність і геббову природу їхнього алгоритму тренування (тренуються за геббовим правилом), а також через їхню паралельність і подібність їхньої динаміки до простих фізичних процесів. Машини Больцмана з необмеженою зв'язністю не виявилися корисними для практичних задач у машинному навчанні та висновуванні, але якщо зв'язність належним чином обмежено, то навчання можливо зробити достатньо ефективним, щоби воно було корисним для практичних задач.
Їх назвали на честь [en] у статистичній механіці, який використовують у їхній функції відліків. Їх активно популяризували та пропагували Джефрі Гінтон, [en] та Ян ЛеКун у спільнотах когнітивних наук та машинного навчання. Як загальніший клас у машинному навчанні ці моделі називають [en]» (англ. "energy based models", EBM), оскільки як відправну точку для визначення навчального завдання використовують гамільтонові функції спінового скла.
Структура
Машина Больцмана, як і [en], це мережа вузлів із загальною «енергією» (гамільтоновою функцією), визначеною для загальної мережі. Її вузли видають бінарні результати. Ваги машини Больцмана стохастичні . Глобальна енергія у машині Больцмана ідентична за виглядом глобальній енергії мереж Гопфілда та моделей Ізінга:
Де:
- — сила зв'язку між вузлом та вузлом .
- — стан, , вузла .
- — зміщення вузла у функції глобальної енергії. ( це поріг збудження для цього вузла.)
Часто ваги подають як симетричну матрицю з нулями по діагоналі.
Імовірність стану вузла
Різницю в глобальній енергії, що є результатом дорівнювання одного вузла 0 (off) чи 1 (on), позначувану через , виходячи з симетричної матриці ваг, задають як
Це можливо виразити як різницю енергій двох станів:
Заміна енергії кожного стану його відносною ймовірністю відповідно до [en] (властивості [en], що енергія стану пропорційна від'ємній логарифмічній ймовірності цього стану), дає:
де — больцманова стала, що вбирається штучним поняттям температури . Потім ми змінюємо порядок членів і вважаємо, що ймовірності увімкненості та вимкненості вузла повинні давати в сумі одиницю:
У розв'язку для ймовірність того, що -й вузол увімкнено, дає
де скаляр називають температурою системи. Це відношення є джерелом логістичної функції, яку можна знайти у ймовірнісних виразах варіантів машини Больцмана.
Стан рівноваги
Ця мережа працює шляхом циклічного обирання вузла та скидання його стану. Після достатньо тривалої роботи за певної температури, відповідно до [en], ймовірність глобального стану мережі залежить лише від енергії цього глобального стану, а не від початкового стану, з якого почався процес. Це означає, що логарифмічні ймовірності глобальних станів стають лінійними за своїми енергіями. Цей зв'язок справедливий, коли машина перебуває «у стані теплової рівноваги», тобто розподіл імовірностей глобальних станів збігся. При запуску мережі починаючи з високої температури її температура поступово знижується до досягнення теплової рівноваги за нижчої температури. Вона тоді може збігтися до розподілу, де рівень енергії коливається навколо глобального мінімуму. Цей процес називають імітуванням відпалювання.
Щоби натренувати мережу таким чином, щоби був шанс її збігання до глобального стану відповідно до зовнішнього розподілу над цими станами, ваги мусить бути встановлено так, щоби глобальні стани з найвищою ймовірністю отримували найменшу енергію. Це робиться тренуванням.
Тренування
Вузли в машині Больцмана поділяють на «видимі» (англ. 'visible') вузли, V, та «приховані» (англ. 'hidden') вузли, H. Видимі вузли — це ті, які отримують інформацію з «середовища», тобто тренувальний набір — це набір двійкових векторів над множиною V. Розподіл над тренувальним набором позначують через .
Розподіл над глобальними станами збігається, коли машина Больцмана досягає теплової рівноваги. Ми позначуємо цей розподіл, після відособлення його над прихованими вузлами, через .
Наша мета — наблизити «справжній» розподіл , використовуючи , вироблений машиною. Подібність цих двох розподілів вимірюють розходженням Кульбака — Лейблера, :
де підсумовування йде за всіма можливими станами . є функцією ваг, оскільки вони визначають енергію стану, а енергія, як обіцяє больцманів розподіл, визначає . Алгоритм градієнтного спуску над змінює задану вагу відніманням часткової похідної за цією вагою.
Тренування машини Больцмана включає дві почергові фази. Одна — це «позитивна» фаза, коли стани видимих вузлів прив'язуються до конкретного бінарного вектора стану, вибраного з тренувального набору (відповідно до ). Інша — «негативна» фаза, коли мережі дозволяють вільно працювати, тобто лише стан вузлів входу визначається зовнішніми даними, але вузлам виходу дозволено плавати. Градієнт відносно заданої ваги, , задається рівнянням
де
- — ймовірність того, що вузли i та j обидва увімкнено, коли машина знаходиться в рівновазі у позитивній фазі.
- — ймовірність того, що вузли i та j обидва увімкнено, коли машина знаходиться в рівновазі у негативній фазі.
- позначує темп навчання
Цей результат випливає з того, що за теплової рівноваги ймовірність будь-якого глобального стану , коли мережа працює вільно, задається больцмановим розподілом.
Це правило навчання біологічно вірогідне, оскільки єдина інформація, необхідна для зміни ваг, надається «локальною» інформацією. Тобто, з'єднання (синапс, із біологічного погляду) не потребує інформації ні про що, крім двох нейронів, які воно з'єднує. Це біологічно реалістичніше, ніж інформація, необхідна з'єднанню в багатьох інших алгоритмах тренування нейронних мереж, таких як зворотне поширення.
Навчання машини Больцмана не використовує алгоритм очікування-максимізації, широко вживаний у машинному навчанні. З мінімізуванням КЛ-розходження, воно рівнозначне максимізуванню логарифмічної ймовірності даних. Таким чином, процедура тренування виконує градієнтне сходження за логарифмом правдоподібності спостережуваних даних. Це відрізняється від алгоритму очікування-максимізації, де апостеріорний розподіл прихованих вузлів мусить бути обчислено до максимізування очікуваного значення повної правдоподібності даних під час кроку максимізування.
Тренування зміщень відбувається подібно, але використовує активність лише одного вузла:
Проблеми
Теоретично, машина Больцмана це досить загальне обчислювальне середовище. Наприклад, тренована на фотографіях, машина теоретично змоделювала би розподіл фотографій, і цю модель можливо було би використовувати, щоби, наприклад, [en] часткову фотографію.
На жаль, машини Больцмана зазнають серйозної практичної проблеми, а саме того, що вони, як видається, перестають правильно навчатися, коли машина масштабується до чогось більшого за тривіальний розмір.[] Це пов'язано з важливими ефектами, зокрема:
- час, необхідний для збору статистики рівноваги, зростає експоненційно з розміром машини та величиною сил з'єднань[]
- сили з'єднань пластичніші тоді, коли з'єднані вузли мають проміжні ймовірності збудження між нулем та одиницею, що призводить до так званої пастки дисперсії (англ. variance trap). Чистий ефект полягає в тому, що шум змушує сили з'єднань слідувати випадковим блуканням, доки збудження не наситяться.
Типи
Обмежена машина Больцмана
Хоч навчання у звичайних машинах Больцмана і непрактичне, воно може бути досить дієвим в обмеженій машині Больцмана (ОМБ, англ. restricted Boltzmann machine, RBM), яка не допускає внутрішньошарових з'єднань з-поміж прихованих та видимих вузлів, тобто немає з'єднань між видимими й видимими та прихованими й прихованими вузлами. Після тренування однієї ОМБ збудження її прихованих вузлів можливо розглядати як дані для тренування ОМБ вищого рівня. Цей метод складання (англ. stacking) ОМБ уможливлює ефективне тренування багатьох шарів прихованих вузлів і є однією з найпоширеніших стратегій глибокого навчання. Породжувальна модель покращується з додаванням кожного нового шару.
Розширення обмеженої машини Больцмана дозволяє використовувати дійснозначні дані замість двійкових.
Один із прикладів практичного застосування ОМБ — розпізнавання мовлення.
Глибока машина Больцмана
Глибока машина Больцмана (ГМБ, англ. deep Boltzmann machine, DBM) — це один з типів двійкового парного марковського випадкового поля (неорієнтованої ймовірнісної графової моделі) з кількома шарами прихованих випадкових змінних. Це мережа симетрично спарованих стохастичних [en]. Вона складається з набору видимих вузлів та шарів прихованих вузлів . Жодне з'єднання не з'єднує вузли одного й того ж шару (як і в ОМБ). Для ГМБ ймовірністю, приписуваною векторові ν, є
де — набір прихованих вузлів, а — параметри моделі, що подають взаємодії видимі-приховані та приховані-приховані. У ГМП лише два верхні шари утворюють обмежену машину Больцмана (що є неорієнтованою графовою моделлю), тоді як нижні шари утворюють орієнтовану породжувальну модель. У ГМБ всі шари симетричні та неорієнтовані.
Як і ГМП, ГМБ можуть навчатися складних та абстрактних внутрішніх подань входу в таких завданнях як [en] та мовлення, використовуючи обмежені мічені дані для тонкого налаштовування подань, побудованих із використанням великого набору немічених сенсо́рних вхідних даних. Проте, на відміну від ГМП та глибоких згорткових нейронних мереж, вони здійснюють процедуру висновування та тренування в обох напрямках, висхідному та низхідному, що дозволяє ГМБ краще розкривати подання вхідних структур.
Проте низька швидкість ГМБ обмежує їхню продуктивність та функціональність. Через те, що навчання точної максимальної правдоподібності для ГМБ непіддатливе, можливе лише навчання приблизної максимальної правдоподібності. Іншим варіантом є використання висновування осередненого поля (англ. mean-field inference) для оцінювання залежних від даних очікувань та наближення очікуваної достатньої статистики застосуванням методів Монте-Карло марковських ланцюгів (МКМЛ). Це наближене висновування, що мусить бути здійснено для кожного перевірного входу, приблизно в 25—50 разів повільніше за єдиний висхідний прохід у ГМБ. Це робить спільну оптимізацію непрактичною для великих наборів даних і обмежує використання ГМБ для таких завдань як подання ознак.
Піково-пластинні ОМБ
Потреба в глибокому навчанні з дійснозначними входами, як у гауссових ОМБ, привела до піково-пластинної ОМБ (ппОМБ, англ. spike-and-slab RBM, ssRBM), яка моделює неперервнозначні входи [en] латентними змінними. Подібно до базових ОМБ та їхніх варіантів, піково-пластинна ОМБ це двочастковий граф, але, як і в ГОМБ, видимі вузли (входи) дійснозначні. Різниця полягає у прихованому шарі, де кожен прихований вузол має змінну бінарного піку (англ. spike) та змінну дійснозначної пластини (англ. slab). Пік — це дискретна маса ймовірності в нульовій точці, тоді як пластина — це густина в неперервній області; їхня суміш утворює апріорне.
Розширення ппОМБ під назвою µ-ппОМБ забезпечує додаткові моделювальні потужності за допомогою додаткових членів у функції енергії . Один із цих членів дає змогу моделі формувати умовний розподіл пікових змінних знеособленням пластинних змінних за заданого спостереження.
У математиці
У загальнішій математичній постановці розподіл Больцмана також відомий як [en]. У статистиці й машинному навчанні це називають [en]. У глибокому навчанні розподіл Больцмана використовують у вибірковому розподілі стохастичних нейронних мереж, таких як машина Больцмана.
Історія
Машина Больцмана ґрунтується на моделі спіновго скла стохастичної моделі Ізінга Шеррінгтона — Кіркпатріка.
Первинний внесок у застосування таких моделей на основі енергії у когнітивній науці з'явився у статтях Гінтона та Сейновського.
Засаднича публікація Джона Гопфілда поєднала фізику та статистичну механіку, згадавши спінове скло.
Ідея застосування моделі Ізінга з [en] з відпалюванням присутня в проєкті [en] Дугласа Гофстедтера.
Подібні ідеї (зі зміною знаку функції енергії) зустрічаються в «Теорії гармонії» [en].
Явна аналогія, проведена зі статистичною механікою у формулюванні машини Больцмана, привела до використання термінології, запозиченої з фізики (наприклад, «енергія», а не «гармонія»), що стала стандартом у цій галузі. Широке застосування цієї термінології, можливо, було заохочено тим фактом, що її використання призвело до прийняття різноманітних понять та методів зі статистичної механіки. Різноманітні пропозиції щодо використання імітування відпалювання для висновування були очевидно незалежними.
Моделі Ізінга стали вважати окремим випадком марковських випадкових полів, які знаходять широке застосування в лінгвістиці, робототехніці, комп'ютернім баченні та штучному інтелекті.
Див. також
- Обмежена машина Больцмана
- [en]
- Марковське випадкове поле
- Модель Ізінга
- Мережа Гопфілда
- Правило навчання, яке використовує умовну «локальну» інформацію, може бути отримано з оберненого вигляду ,
- .
Примітки
- Sherrington, David; Kirkpatrick, Scott (1975), Solvable Model of a Spin-Glass, Physical Review Letters (англ.), 35 (35): 1792—1796, Bibcode:1975PhRvL..35.1792S, doi:10.1103/PhysRevLett.35.1792
- Ackley, David H; Hinton Geoffrey E; Sejnowski, Terrence J (1985), A learning algorithm for Boltzmann machines (PDF), Cognitive Science (англ.), 9 (1): 147—169, doi:10.1207/s15516709cog0901_7
- Hinton, Geoffrey E. (24 травня 2007). Boltzmann machine. Scholarpedia (англ.). 2 (5): 1668. Bibcode:2007SchpJ...2.1668H. doi:10.4249/scholarpedia.1668. ISSN 1941-6016.
- Osborn, Thomas R. (1 січня 1990). Fast Teaching of Boltzmann Machines with Local Inhibition. International Neural Network Conference (англ.). Springer Netherlands. с. 785. doi:10.1007/978-94-009-0643-3_76. ISBN .
- Nijkamp, E.; Hill, M. E; Han, T. (2020), On the Anatomy of MCMC-Based Maximum Likelihood Learning of Energy-Based Models, Proceedings of the AAAI Conference on Artificial Intelligence (англ.), 4 (34): 5272—5280, doi:10.1609/aaai.v34i04.5973
- Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1985). (PDF). [en] (англ.). 9 (1): 147—169. doi:10.1207/s15516709cog0901_7. Архів оригіналу (PDF) за 18 липня 2011.
- Recent Developments in Deep Learning (англ.), архів оригіналу за 22 грудня 2021, процитовано 17 лютого 2020
- Yu, Dong; Dahl, George; Acero, Alex; Deng, Li (2011). Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition (PDF). Microsoft Research (англ.). 20.
- Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). (PDF). Advances in Neural (англ.). 3: 1—9. Архів оригіналу (PDF) за 13 серпня 2017. Процитовано 18 серпня 2017.
- Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). (PDF) (англ.). 3: 448—455. Архів оригіналу (PDF) за 6 листопада 2015. Процитовано 18 серпня 2017.
- Bengio, Yoshua; LeCun, Yann (2007). Scaling Learning Algorithms towards AI (PDF) (англ.). 1: 1—41.
- Larochelle, Hugo; Salakhutdinov, Ruslan (2010). (PDF) (англ.): 693—700. Архів оригіналу (PDF) за 14 серпня 2017. Процитовано 18 серпня 2017.
- Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). (PDF). JMLR: Workshop and Conference Proceeding (англ.). 15: 233—241. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
- Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). (PDF). Proceedings of the 28th International Conference on Machine Learning (англ.). Т. 10. с. 1—8. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
- Mitchell, T; Beauchamp, J (1988). Bayesian Variable Selection in Linear Regression. Journal of the American Statistical Association (англ.). 83 (404): 1023—1032. doi:10.1080/01621459.1988.10478694.
- Sherrington, David; Kirkpatrick, Scott (29 грудня 1975). Solvable Model of a Spin-Glass. Physical Review Letters (англ.). 35 (26): 1792—1796. Bibcode:1975PhRvL..35.1792S. doi:10.1103/physrevlett.35.1792. ISSN 0031-9007.
- Hinton, Geoffery; Sejnowski, Terrence J. (May 1983). Analyzing Cooperative Computation. 5th Annual Congress of the Cognitive Science Society (англ.). Rochester, New York. Процитовано 17 лютого 2020.
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () - Hinton, Geoffrey E.; Sejnowski, Terrence J. (June 1983). Optimal Perceptual Inference. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (англ.). Washington, D.C.: IEEE Computer Society. с. 448—453.
- Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the United States of America (англ.). [s.n.] 79 (8): 2554—8. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. OCLC 848771572. PMC 346238. PMID 6953413.
- Hofstadter, D. R. (January 1984). The Copycat Project: An Experiment in Nondeterminism and Creative Analogies (англ.). Defense Technical Information Center. OCLC 227617764.
- Hofstadter, Douglas R. (1988). A Non-Deterministic Approach to Analogy, Involving the Ising Model of Ferromagnetism. У Caianiello, Eduardo R. (ред.). Physics of cognitive processes (англ.). Teaneck, New Jersey: World Scientific. ISBN . OCLC 750950619.
- Liou, C.-Y.; Lin, S.-L. (1989). The other variant Boltzmann machine. International Joint Conference on Neural Networks (англ.). Washington, D.C., USA: IEEE. с. 449—454. doi:10.1109/IJCNN.1989.118618.
Література
- Hinton, G. E.; (1986). D. E. Rumelhart; J. L. McClelland (ред.). (PDF). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations (англ.): 282—317. Архів оригіналу (PDF) за 5 липня 2010.
- Hinton, G. E. (2002). Training Products of Experts by Minimizing Contrastive Divergence (PDF). [en] (англ.). 14 (8): 1771—1800. CiteSeerX 10.1.1.35.8613. doi:10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
- Hinton, G. E.; Osindero, S.; Teh, Y. (2006). A fast learning algorithm for deep belief nets (PDF). [en] (англ.). 18 (7): 1527—1554. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
- Kothari P (2020): https://www.forbes.com/sites/tomtaulli/2020/02/02/coronavirus-can-ai-artificial-intelligence-make-a-difference/?sh=1eca51e55817 (англ.)
- Montufar Guido. Restricted Boltzmann Machines: Introduction and Review. — [en], 2018.
Посилання
- Стаття Гінтона в Сколарпедії про машини Больцмана (англ.)
- Промова Джефрі Гінтона в Google (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Mashi na Bo lcmana takozh zvana mode llyu She rringtona Kirkpa trika iz zo vnishnim po lem ta stohasti chnoyu mode llyu I zinga Le nca Li ttla angl Boltzmann machine Sherrington Kirkpatrick model with external field stochastic Ising Lenz Little model ce stohastichna model spinovogo skla iz zovnishnim polem tobto en sho ye stohastichnoyu modellyu Izinga Ce metodika statistichnoyi fiziki yaku zastosovuyut u konteksti kognitivnoyi nauki Yiyi takozh klasifikuyut yak markovske vipadkove pole Grafove podannya prikladu mashini Bolcmana Kozhne neoriyentovane rebro podaye zalezhnist U comu prikladi ye 3 prihovani vuzli ta 4 vidimi Ce ne obmezhena mashina Bolcmana Mashini Bolcmana teoretichno zahoplivi cherez lokalnist i gebbovu prirodu yihnogo algoritmu trenuvannya trenuyutsya za gebbovim pravilom a takozh cherez yihnyu paralelnist i podibnist yihnoyi dinamiki do prostih fizichnih procesiv Mashini Bolcmana z neobmezhenoyu zv yaznistyu ne viyavilisya korisnimi dlya praktichnih zadach u mashinnomu navchanni ta visnovuvanni ale yaksho zv yaznist nalezhnim chinom obmezheno to navchannya mozhlivo zrobiti dostatno efektivnim shobi vono bulo korisnim dlya praktichnih zadach Yih nazvali na chest en u statistichnij mehanici yakij vikoristovuyut u yihnij funkciyi vidlikiv Yih aktivno populyarizuvali ta propaguvali Dzhefri Ginton en ta Yan LeKun u spilnotah kognitivnih nauk ta mashinnogo navchannya Yak zagalnishij klas u mashinnomu navchanni ci modeli nazivayut en angl energy based models EBM oskilki yak vidpravnu tochku dlya viznachennya navchalnogo zavdannya vikoristovuyut gamiltonovi funkciyi spinovogo skla StrukturaGrafove podannya mashini Bolcmana z kilkoma poznachenimi vagami Kozhne neoriyentovane rebro podaye zalezhnist i maye vagu w i j displaystyle w ij U comu prikladi ye 3 prihovani vuzli sini ta 4 vidimi bili Ce ne obmezhena mashina Bolcmana Mashina Bolcmana yak i en ce merezha vuzliv iz zagalnoyu energiyeyu gamiltonovoyu funkciyeyu viznachenoyu dlya zagalnoyi merezhi Yiyi vuzli vidayut binarni rezultati Vagi mashini Bolcmana stohastichni Globalna energiya E displaystyle E u mashini Bolcmana identichna za viglyadom globalnij energiyi merezh Gopfilda ta modelej Izinga E i lt j w i j s i s j i 8 i s i displaystyle E left sum i lt j w ij s i s j sum i theta i s i right De w i j displaystyle w ij sila zv yazku mizh vuzlom j displaystyle j ta vuzlom i displaystyle i s i displaystyle s i stan s i 0 1 displaystyle s i in 0 1 vuzla i displaystyle i 8 i displaystyle theta i zmishennya vuzla i displaystyle i u funkciyi globalnoyi energiyi 8 i displaystyle theta i ce porig zbudzhennya dlya cogo vuzla Chasto vagi w i j displaystyle w ij podayut yak simetrichnu matricyu W w i j displaystyle W w ij z nulyami po diagonali Imovirnist stanu vuzlaRiznicyu v globalnij energiyi sho ye rezultatom dorivnyuvannya odnogo vuzla i displaystyle i 0 off chi 1 on poznachuvanu cherez D E i displaystyle Delta E i vihodyachi z simetrichnoyi matrici vag zadayut yak D E i j gt i w i j s j j lt i w j i s j 8 i displaystyle Delta E i sum j gt i w ij s j sum j lt i w ji s j theta i Ce mozhlivo viraziti yak riznicyu energij dvoh staniv D E i E i off E i on displaystyle Delta E i E text i off E text i on Zamina energiyi kozhnogo stanu jogo vidnosnoyu jmovirnistyu vidpovidno do en vlastivosti en sho energiya stanu proporcijna vid yemnij logarifmichnij jmovirnosti cogo stanu daye D E i k B T ln p i off k B T ln p i on displaystyle Delta E i k B T ln p text i off k B T ln p text i on de k B displaystyle k B bolcmanova stala sho vbirayetsya shtuchnim ponyattyam temperaturi T displaystyle T Potim mi zminyuyemo poryadok chleniv i vvazhayemo sho jmovirnosti uvimknenosti ta vimknenosti vuzla povinni davati v sumi odinicyu D E i T ln p i on ln p i off displaystyle frac Delta E i T ln p text i on ln p text i off D E i T ln p i on ln 1 p i on displaystyle frac Delta E i T ln p text i on ln 1 p text i on D E i T ln p i on 1 p i on displaystyle frac Delta E i T ln left frac p text i on 1 p text i on right D E i T ln 1 p i on p i on displaystyle frac Delta E i T ln left frac 1 p text i on p text i on right D E i T ln 1 p i on 1 displaystyle frac Delta E i T ln left frac 1 p text i on 1 right exp D E i T 1 p i on 1 displaystyle exp left frac Delta E i T right frac 1 p text i on 1 U rozv yazku dlya p i on displaystyle p text i on jmovirnist togo sho i displaystyle i j vuzol uvimkneno daye p i on 1 1 exp D E i T displaystyle p text i on frac 1 1 exp frac Delta E i T de skalyar T displaystyle T nazivayut temperaturoyu sistemi Ce vidnoshennya ye dzherelom logistichnoyi funkciyi yaku mozhna znajti u jmovirnisnih virazah variantiv mashini Bolcmana Stan rivnovagiCya merezha pracyuye shlyahom ciklichnogo obirannya vuzla ta skidannya jogo stanu Pislya dostatno trivaloyi roboti za pevnoyi temperaturi vidpovidno do en jmovirnist globalnogo stanu merezhi zalezhit lishe vid energiyi cogo globalnogo stanu a ne vid pochatkovogo stanu z yakogo pochavsya proces Ce oznachaye sho logarifmichni jmovirnosti globalnih staniv stayut linijnimi za svoyimi energiyami Cej zv yazok spravedlivij koli mashina perebuvaye u stani teplovoyi rivnovagi tobto rozpodil imovirnostej globalnih staniv zbigsya Pri zapusku merezhi pochinayuchi z visokoyi temperaturi yiyi temperatura postupovo znizhuyetsya do dosyagnennya teplovoyi rivnovagi za nizhchoyi temperaturi Vona todi mozhe zbigtisya do rozpodilu de riven energiyi kolivayetsya navkolo globalnogo minimumu Cej proces nazivayut imituvannyam vidpalyuvannya Shobi natrenuvati merezhu takim chinom shobi buv shans yiyi zbigannya do globalnogo stanu vidpovidno do zovnishnogo rozpodilu nad cimi stanami vagi musit buti vstanovleno tak shobi globalni stani z najvishoyu jmovirnistyu otrimuvali najmenshu energiyu Ce robitsya trenuvannyam TrenuvannyaVuzli v mashini Bolcmana podilyayut na vidimi angl visible vuzli V ta prihovani angl hidden vuzli H Vidimi vuzli ce ti yaki otrimuyut informaciyu z seredovisha tobto trenuvalnij nabir ce nabir dvijkovih vektoriv nad mnozhinoyu V Rozpodil nad trenuvalnim naborom poznachuyut cherez P V displaystyle P V Rozpodil nad globalnimi stanami zbigayetsya koli mashina Bolcmana dosyagaye teplovoyi rivnovagi Mi poznachuyemo cej rozpodil pislya vidosoblennya jogo nad prihovanimi vuzlami cherez P V displaystyle P V Nasha meta nabliziti spravzhnij rozpodil P V displaystyle P V vikoristovuyuchi P V displaystyle P V viroblenij mashinoyu Podibnist cih dvoh rozpodiliv vimiryuyut rozhodzhennyam Kulbaka Lejblera G displaystyle G G v P v ln P v P v displaystyle G sum v P v ln left frac P v P v right de pidsumovuvannya jde za vsima mozhlivimi stanami V displaystyle V G displaystyle G ye funkciyeyu vag oskilki voni viznachayut energiyu stanu a energiya yak obicyaye bolcmaniv rozpodil viznachaye P v displaystyle P v Algoritm gradiyentnogo spusku nad G displaystyle G zminyuye zadanu vagu w i j displaystyle w ij vidnimannyam chastkovoyi pohidnoyi G displaystyle G za ciyeyu vagoyu Trenuvannya mashini Bolcmana vklyuchaye dvi pochergovi fazi Odna ce pozitivna faza koli stani vidimih vuzliv priv yazuyutsya do konkretnogo binarnogo vektora stanu vibranogo z trenuvalnogo naboru vidpovidno do P displaystyle P Insha negativna faza koli merezhi dozvolyayut vilno pracyuvati tobto lishe stan vuzliv vhodu viznachayetsya zovnishnimi danimi ale vuzlam vihodu dozvoleno plavati Gradiyent vidnosno zadanoyi vagi w i j displaystyle w ij zadayetsya rivnyannyam G w i j 1 R p i j p i j displaystyle frac partial G partial w ij frac 1 R p ij p ij de p i j displaystyle p ij jmovirnist togo sho vuzli i ta j obidva uvimkneno koli mashina znahoditsya v rivnovazi u pozitivnij fazi p i j displaystyle p ij jmovirnist togo sho vuzli i ta j obidva uvimkneno koli mashina znahoditsya v rivnovazi u negativnij fazi R displaystyle R poznachuye temp navchannya Cej rezultat viplivaye z togo sho za teplovoyi rivnovagi jmovirnist P s displaystyle P s bud yakogo globalnogo stanu s displaystyle s koli merezha pracyuye vilno zadayetsya bolcmanovim rozpodilom Ce pravilo navchannya biologichno virogidne oskilki yedina informaciya neobhidna dlya zmini vag nadayetsya lokalnoyu informaciyeyu Tobto z yednannya sinaps iz biologichnogo poglyadu ne potrebuye informaciyi ni pro sho krim dvoh nejroniv yaki vono z yednuye Ce biologichno realistichnishe nizh informaciya neobhidna z yednannyu v bagatoh inshih algoritmah trenuvannya nejronnih merezh takih yak zvorotne poshirennya Navchannya mashini Bolcmana ne vikoristovuye algoritm ochikuvannya maksimizaciyi shiroko vzhivanij u mashinnomu navchanni Z minimizuvannyam KL rozhodzhennya vono rivnoznachne maksimizuvannyu logarifmichnoyi jmovirnosti danih Takim chinom procedura trenuvannya vikonuye gradiyentne shodzhennya za logarifmom pravdopodibnosti sposterezhuvanih danih Ce vidriznyayetsya vid algoritmu ochikuvannya maksimizaciyi de aposteriornij rozpodil prihovanih vuzliv musit buti obchisleno do maksimizuvannya ochikuvanogo znachennya povnoyi pravdopodibnosti danih pid chas kroku maksimizuvannya Trenuvannya zmishen vidbuvayetsya podibno ale vikoristovuye aktivnist lishe odnogo vuzla G 8 i 1 R p i p i displaystyle frac partial G partial theta i frac 1 R p i p i ProblemiTeoretichno mashina Bolcmana ce dosit zagalne obchislyuvalne seredovishe Napriklad trenovana na fotografiyah mashina teoretichno zmodelyuvala bi rozpodil fotografij i cyu model mozhlivo bulo bi vikoristovuvati shobi napriklad en chastkovu fotografiyu Na zhal mashini Bolcmana zaznayut serjoznoyi praktichnoyi problemi a same togo sho voni yak vidayetsya perestayut pravilno navchatisya koli mashina masshtabuyetsya do chogos bilshogo za trivialnij rozmir dzherelo Ce pov yazano z vazhlivimi efektami zokrema chas neobhidnij dlya zboru statistiki rivnovagi zrostaye eksponencijno z rozmirom mashini ta velichinoyu sil z yednan dzherelo sili z yednan plastichnishi todi koli z yednani vuzli mayut promizhni jmovirnosti zbudzhennya mizh nulem ta odiniceyu sho prizvodit do tak zvanoyi pastki dispersiyi angl variance trap Chistij efekt polyagaye v tomu sho shum zmushuye sili z yednan sliduvati vipadkovim blukannyam doki zbudzhennya ne nasityatsya TipiObmezhena mashina Bolcmana Grafove podannya obmezhenoyi mashini Bolcmana Chotiri blakitni vuzli podayut prihovani vuzli a tri chervoni vidimi stani V obmezhenih mashinah Bolcmana isnuyut lishe z yednannya zalezhnosti mizh prihovanimi ta vidimimi vuzlami j zhodnih mizh vuzlami odnogo tipu ani z yednan prihovanij prihovanij ani vidimij vidimij Dokladnishe Obmezhena mashina Bolcmana Hoch navchannya u zvichajnih mashinah Bolcmana i nepraktichne vono mozhe buti dosit diyevim v obmezhenij mashini Bolcmana OMB angl restricted Boltzmann machine RBM yaka ne dopuskaye vnutrishnosharovih z yednan z pomizh prihovanih ta vidimih vuzliv tobto nemaye z yednan mizh vidimimi j vidimimi ta prihovanimi j prihovanimi vuzlami Pislya trenuvannya odniyeyi OMB zbudzhennya yiyi prihovanih vuzliv mozhlivo rozglyadati yak dani dlya trenuvannya OMB vishogo rivnya Cej metod skladannya angl stacking OMB umozhlivlyuye efektivne trenuvannya bagatoh shariv prihovanih vuzliv i ye odniyeyu z najposhirenishih strategij glibokogo navchannya Porodzhuvalna model pokrashuyetsya z dodavannyam kozhnogo novogo sharu Rozshirennya obmezhenoyi mashini Bolcmana dozvolyaye vikoristovuvati dijsnoznachni dani zamist dvijkovih Odin iz prikladiv praktichnogo zastosuvannya OMB rozpiznavannya movlennya Gliboka mashina Bolcmana Gliboka mashina Bolcmana GMB angl deep Boltzmann machine DBM ce odin z tipiv dvijkovogo parnogo markovskogo vipadkovogo polya neoriyentovanoyi jmovirnisnoyi grafovoyi modeli z kilkoma sharami prihovanih vipadkovih zminnih Ce merezha simetrichno sparovanih stohastichnih en Vona skladayetsya z naboru vidimih vuzliv n 0 1 D displaystyle boldsymbol nu in 0 1 D ta shariv prihovanih vuzliv h 1 0 1 F 1 h 2 0 1 F 2 h L 0 1 F L displaystyle boldsymbol h 1 in 0 1 F 1 boldsymbol h 2 in 0 1 F 2 ldots boldsymbol h L in 0 1 F L Zhodne z yednannya ne z yednuye vuzli odnogo j togo zh sharu yak i v OMB Dlya GMB jmovirnistyu pripisuvanoyu vektorovi n ye p n 1 Z h e i j W i j 1 n i h j 1 j l W j l 2 h j 1 h l 2 l m W l m 3 h l 2 h m 3 displaystyle p boldsymbol nu frac 1 Z sum h e sum ij W ij 1 nu i h j 1 sum jl W jl 2 h j 1 h l 2 sum lm W lm 3 h l 2 h m 3 de h h 1 h 2 h 3 displaystyle boldsymbol h boldsymbol h 1 boldsymbol h 2 boldsymbol h 3 nabir prihovanih vuzliv a 8 W 1 W 2 W 3 displaystyle theta boldsymbol W 1 boldsymbol W 2 boldsymbol W 3 parametri modeli sho podayut vzayemodiyi vidimi prihovani ta prihovani prihovani U GMP lishe dva verhni shari utvoryuyut obmezhenu mashinu Bolcmana sho ye neoriyentovanoyu grafovoyu modellyu todi yak nizhni shari utvoryuyut oriyentovanu porodzhuvalnu model U GMB vsi shari simetrichni ta neoriyentovani Yak i GMP GMB mozhut navchatisya skladnih ta abstraktnih vnutrishnih podan vhodu v takih zavdannyah yak en ta movlennya vikoristovuyuchi obmezheni micheni dani dlya tonkogo nalashtovuvannya podan pobudovanih iz vikoristannyam velikogo naboru nemichenih senso rnih vhidnih danih Prote na vidminu vid GMP ta glibokih zgortkovih nejronnih merezh voni zdijsnyuyut proceduru visnovuvannya ta trenuvannya v oboh napryamkah vishidnomu ta nizhidnomu sho dozvolyaye GMB krashe rozkrivati podannya vhidnih struktur Prote nizka shvidkist GMB obmezhuye yihnyu produktivnist ta funkcionalnist Cherez te sho navchannya tochnoyi maksimalnoyi pravdopodibnosti dlya GMB nepiddatlive mozhlive lishe navchannya pribliznoyi maksimalnoyi pravdopodibnosti Inshim variantom ye vikoristannya visnovuvannya oserednenogo polya angl mean field inference dlya ocinyuvannya zalezhnih vid danih ochikuvan ta nablizhennya ochikuvanoyi dostatnoyi statistiki zastosuvannyam metodiv Monte Karlo markovskih lancyugiv MKML Ce nablizhene visnovuvannya sho musit buti zdijsneno dlya kozhnogo perevirnogo vhodu priblizno v 25 50 raziv povilnishe za yedinij vishidnij prohid u GMB Ce robit spilnu optimizaciyu nepraktichnoyu dlya velikih naboriv danih i obmezhuye vikoristannya GMB dlya takih zavdan yak podannya oznak Pikovo plastinni OMB Potreba v glibokomu navchanni z dijsnoznachnimi vhodami yak u gaussovih OMB privela do pikovo plastinnoyi OMB ppOMB angl spike and slab RBM ssRBM yaka modelyuye neperervnoznachni vhodi en latentnimi zminnimi Podibno do bazovih OMB ta yihnih variantiv pikovo plastinna OMB ce dvochastkovij graf ale yak i v GOMB vidimi vuzli vhodi dijsnoznachni Riznicya polyagaye u prihovanomu shari de kozhen prihovanij vuzol maye zminnu binarnogo piku angl spike ta zminnu dijsnoznachnoyi plastini angl slab Pik ce diskretna masa jmovirnosti v nulovij tochci todi yak plastina ce gustina v neperervnij oblasti yihnya sumish utvoryuye apriorne Rozshirennya ppOMB pid nazvoyu µ ppOMB zabezpechuye dodatkovi modelyuvalni potuzhnosti za dopomogoyu dodatkovih chleniv u funkciyi energiyi Odin iz cih chleniv daye zmogu modeli formuvati umovnij rozpodil pikovih zminnih zneosoblennyam plastinnih zminnih za zadanogo sposterezhennya U matematici Dokladnishe en ta en en U zagalnishij matematichnij postanovci rozpodil Bolcmana takozh vidomij yak en U statistici j mashinnomu navchanni ce nazivayut en U glibokomu navchanni rozpodil Bolcmana vikoristovuyut u vibirkovomu rozpodili stohastichnih nejronnih merezh takih yak mashina Bolcmana IstoriyaMashina Bolcmana gruntuyetsya na modeli spinovgo skla stohastichnoyi modeli Izinga Sherringtona Kirkpatrika Pervinnij vnesok u zastosuvannya takih modelej na osnovi energiyi u kognitivnij nauci z yavivsya u stattyah Gintona ta Sejnovskogo Zasadnicha publikaciya Dzhona Gopfilda poyednala fiziku ta statistichnu mehaniku zgadavshi spinove sklo Ideya zastosuvannya modeli Izinga z en z vidpalyuvannyam prisutnya v proyekti en Duglasa Gofstedtera Podibni ideyi zi zminoyu znaku funkciyi energiyi zustrichayutsya v Teoriyi garmoniyi en Yavna analogiya provedena zi statistichnoyu mehanikoyu u formulyuvanni mashini Bolcmana privela do vikoristannya terminologiyi zapozichenoyi z fiziki napriklad energiya a ne garmoniya sho stala standartom u cij galuzi Shiroke zastosuvannya ciyeyi terminologiyi mozhlivo bulo zaohocheno tim faktom sho yiyi vikoristannya prizvelo do prijnyattya riznomanitnih ponyat ta metodiv zi statistichnoyi mehaniki Riznomanitni propoziciyi shodo vikoristannya imituvannya vidpalyuvannya dlya visnovuvannya buli ochevidno nezalezhnimi Modeli Izinga stali vvazhati okremim vipadkom markovskih vipadkovih poliv yaki znahodyat shiroke zastosuvannya v lingvistici robototehnici komp yuternim bachenni ta shtuchnomu intelekti Div takozhObmezhena mashina Bolcmana en Markovske vipadkove pole Model Izinga Merezha Gopfilda Pravilo navchannya yake vikoristovuye umovnu lokalnu informaciyu mozhe buti otrimano z obernenogo viglyadu G displaystyle G G v P v ln P v P v displaystyle G sum v P v ln left frac P v P v right PrimitkiSherrington David Kirkpatrick Scott 1975 Solvable Model of a Spin Glass Physical Review Letters angl 35 35 1792 1796 Bibcode 1975PhRvL 35 1792S doi 10 1103 PhysRevLett 35 1792 Ackley David H Hinton Geoffrey E Sejnowski Terrence J 1985 A learning algorithm for Boltzmann machines PDF Cognitive Science angl 9 1 147 169 doi 10 1207 s15516709cog0901 7 Hinton Geoffrey E 24 travnya 2007 Boltzmann machine Scholarpedia angl 2 5 1668 Bibcode 2007SchpJ 2 1668H doi 10 4249 scholarpedia 1668 ISSN 1941 6016 Osborn Thomas R 1 sichnya 1990 Fast Teaching of Boltzmann Machines with Local Inhibition International Neural Network Conference angl Springer Netherlands s 785 doi 10 1007 978 94 009 0643 3 76 ISBN 978 0 7923 0831 7 Nijkamp E Hill M E Han T 2020 On the Anatomy of MCMC Based Maximum Likelihood Learning of Energy Based Models Proceedings of the AAAI Conference on Artificial Intelligence angl 4 34 5272 5280 doi 10 1609 aaai v34i04 5973 Ackley David H Hinton Geoffrey E Sejnowski Terrence J 1985 PDF en angl 9 1 147 169 doi 10 1207 s15516709cog0901 7 Arhiv originalu PDF za 18 lipnya 2011 Recent Developments in Deep Learning angl arhiv originalu za 22 grudnya 2021 procitovano 17 lyutogo 2020 Yu Dong Dahl George Acero Alex Deng Li 2011 Context Dependent Pre trained Deep Neural Networks for Large Vocabulary Speech Recognition PDF Microsoft Research angl 20 Hinton Geoffrey Salakhutdinov Ruslan 2012 PDF Advances in Neural angl 3 1 9 Arhiv originalu PDF za 13 serpnya 2017 Procitovano 18 serpnya 2017 Hinton Geoffrey Salakhutdinov Ruslan 2009 PDF angl 3 448 455 Arhiv originalu PDF za 6 listopada 2015 Procitovano 18 serpnya 2017 Bengio Yoshua LeCun Yann 2007 Scaling Learning Algorithms towards AI PDF angl 1 1 41 Larochelle Hugo Salakhutdinov Ruslan 2010 PDF angl 693 700 Arhiv originalu PDF za 14 serpnya 2017 Procitovano 18 serpnya 2017 Courville Aaron Bergstra James Bengio Yoshua 2011 PDF JMLR Workshop and Conference Proceeding angl 15 233 241 Arhiv originalu PDF za 4 bereznya 2016 Procitovano 25 serpnya 2019 Courville Aaron Bergstra James Bengio Yoshua 2011 PDF Proceedings of the 28th International Conference on Machine Learning angl T 10 s 1 8 Arhiv originalu PDF za 4 bereznya 2016 Procitovano 25 serpnya 2019 Mitchell T Beauchamp J 1988 Bayesian Variable Selection in Linear Regression Journal of the American Statistical Association angl 83 404 1023 1032 doi 10 1080 01621459 1988 10478694 Sherrington David Kirkpatrick Scott 29 grudnya 1975 Solvable Model of a Spin Glass Physical Review Letters angl 35 26 1792 1796 Bibcode 1975PhRvL 35 1792S doi 10 1103 physrevlett 35 1792 ISSN 0031 9007 Hinton Geoffery Sejnowski Terrence J May 1983 Analyzing Cooperative Computation 5th Annual Congress of the Cognitive Science Society angl Rochester New York Procitovano 17 lyutogo 2020 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite conference title Shablon Cite conference cite conference a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya Hinton Geoffrey E Sejnowski Terrence J June 1983 Optimal Perceptual Inference IEEE Conference on Computer Vision and Pattern Recognition CVPR angl Washington D C IEEE Computer Society s 448 453 Hopfield J J 1982 Neural networks and physical systems with emergent collective computational abilities Proceedings of the National Academy of Sciences of the United States of America angl s n 79 8 2554 8 Bibcode 1982PNAS 79 2554H doi 10 1073 pnas 79 8 2554 OCLC 848771572 PMC 346238 PMID 6953413 Hofstadter D R January 1984 The Copycat Project An Experiment in Nondeterminism and Creative Analogies angl Defense Technical Information Center OCLC 227617764 Hofstadter Douglas R 1988 A Non Deterministic Approach to Analogy Involving the Ising Model of Ferromagnetism U Caianiello Eduardo R red Physics of cognitive processes angl Teaneck New Jersey World Scientific ISBN 9971 5 0255 0 OCLC 750950619 Liou C Y Lin S L 1989 The other variant Boltzmann machine International Joint Conference on Neural Networks angl Washington D C USA IEEE s 449 454 doi 10 1109 IJCNN 1989 118618 LiteraturaHinton G E 1986 D E Rumelhart J L McClelland red PDF Parallel Distributed Processing Explorations in the Microstructure of Cognition Volume 1 Foundations angl 282 317 Arhiv originalu PDF za 5 lipnya 2010 Hinton G E 2002 Training Products of Experts by Minimizing Contrastive Divergence PDF en angl 14 8 1771 1800 CiteSeerX 10 1 1 35 8613 doi 10 1162 089976602760128018 PMID 12180402 S2CID 207596505 Hinton G E Osindero S Teh Y 2006 A fast learning algorithm for deep belief nets PDF en angl 18 7 1527 1554 CiteSeerX 10 1 1 76 1541 doi 10 1162 neco 2006 18 7 1527 PMID 16764513 S2CID 2309950 Kothari P 2020 https www forbes com sites tomtaulli 2020 02 02 coronavirus can ai artificial intelligence make a difference sh 1eca51e55817 angl Montufar Guido Restricted Boltzmann Machines Introduction and Review en 2018 PosilannyaStattya Gintona v Skolarpediyi pro mashini Bolcmana angl Promova Dzhefri Gintona v Google angl