У машинному навчанні дифузійні моделі, також відомі як ймовірнісні моделі дифузії, є класом моделей прихованих змінних. Це ланцюги Маркова, навчені за допомогою варіаційного висновку. Метою дифузійних моделей є вивчення латентної структури набору даних шляхом моделювання того, як точки даних розсіюються в латентному просторі. У комп'ютерному зорі це означає, що нейронна мережа навчається зашумлювати зображення, розмиті гаусовим шумом, шляхом навчання зворотному процесу дифузії. Три приклади загальних структур моделювання дифузії, що використовуються в комп'ютерному зорі, це імовірнісні моделі дифузії з усуненням шуму, мережі балів з умовою шуму та стохастичні диференціальні рівняння.
Дифузійні моделі були представлені у 2015 році мотивуючись нелінійною термодинамікою.
Дифузійні моделі можуть бути застосовані до різноманітних завдань, зокрема для усунення шумів зображення, розфарбовування, суперроздільності та генерації зображень. Наприклад, модель генерації зображення починається з зображення випадкового шуму, а потім, після навчання реверсу процесу дифузії на природних зображеннях, модель зможе генерувати нові природні зображення. Анонсована 13 квітня 2022 року модель DALL-E 2 OpenAI для перетворення тексту в зображення є недавнім прикладом. Він використовує дифузійні моделі як для попередньої моделі (яка створює вбудовування зображення з текстовим підписом), так і для декодера, який генерує остаточне зображення.
Математичні принципи
Створення зображення в просторі всіх зображень
Розглянемо задачу генерації зображень. Нехай 𝑥 — зображення, а 𝑝(𝑥) — розподіл ймовірності над усіма можливими зображеннями. Якщо у нас є саме 𝑝(𝑥), то ми можемо точно сказати, наскільки ймовірним є певне зображення. Однак, в загальному випадку це нерозв'язна задача.
Найчастіше ми не зацікавлені в тому, щоб знати абсолютну ймовірність того, що певне зображення є — коли, якщо взагалі, нас цікавить, наскільки ймовірним є зображення в просторі всіх можливих зображень? Замість цього ми зазвичай лише зацікавлені в тому, наскільки вірогідним є певне зображення порівняно з його безпосередніми сусідами — наскільки імовірніший це зображення кота порівняно з деякими його невеликими варіантами? Чи більш імовірно, якщо зображення містить два вуса, або три, або з додаванням шуму Гауса?
Отже, нас насправді зовсім не цікавить сам , а радше, . Це забезпечує два ефекти
- По-перше, нам більше не потрібно нормалізувати , але ми можемо використовувати будь-який , де це будь-яка невідома константа, яка нас не цікавить.
- По-друге, ми порівнюємо сусідів , за
Нехай функція оцінки є , розглянемо, що ми можемо зробити з .
Як виявляється, дозволяє нам брати зразки з використовуючи стохастичну градієнтну динаміку Ланжевена, яка, по суті, є нескінченно малою версією ланцюга Маркова Монте-Карло.
Вивчення функції оцінки
Функцію оцінки можна дізнатися за допомогою шумозаглушення.
Основні варіанти
Керівництво класифікатора
Припустимо, ми хочемо взяти вибірку не з усього розподілу зображень, а залежно від опису зображення. Ми не хочемо взяти зразок загального зображення, а зображення, яке відповідає опису «чорний кіт з червоними очима». Як правило, ми хочемо взяти вибірку з розподілу , де діапазони зображень , і діапазони по класах зображень (опис «чорний кіт з червоними очима» — це лише дуже детальний клас, а клас «кіт» — це лише дуже розпливчастий опис).
Розглянувши модель шумового каналу, ми можемо зрозуміти процес таким чином: створити зображення умовний за описом , ми припускаємо, що запитувач дійсно мав на увазі зображення , але зображення проходить через шумовий канал і виходить спотвореним, як . Таким чином, генерація зображення є нічим іншим, як висновком про те, що є що запитувач мав на увазі.
Іншими словами, генерація умовного зображення — це просто «переклад з мови тексту на мову зображення». Потім, як і в моделі шумового каналу, ми використовуємо теорему Баєса, щоб отриматиІншими словами, якщо у нас є хороша модель простору всіх зображень і хороший перекладач зображення-класу, ми отримуємо перекладач класу-зображення «безкоштовно». SGLD використовуєде це функція оцінки, навчена, як описано раніше, і знайдено за допомогою класифікатора диференційованого зображення.
З температурою
Зразки моделі дифузії, керованої класифікатором , яка зосереджена навколо максимальної апостеріорної оцінки . Якщо ми хочемо змусити модель рухатися до оцінки максимальної ймовірності , ми можемо використовуватиде інтерпретується як зворотна температура. У контексті дифузійних моделей її зазвичай називають керівною шкалою. Високий змусить модель брати вибірку з розподілу, зосередженого навколо . Це часто покращує якість створених зображень. Це можна зробити просто за допомогою SGLD
Керівництво без класифікатора
Якщо у нас немає класифікатора , ми все одно можемо витягти один із самої моделі зображення:Таку модель зазвичай тренують, пред'являючи її обома і , що дає змогу моделювати обидва і .
Це невід'ємна частина таких систем, як GLIDE, DALL-E і Google Imagen.
Див. також
- Процес дифузії
- Ланцюг Маркова
- Variational Bayesian methods
- Варіаційний автокодувальник
Список літератури
- Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (19 червня 2020). Denoising Diffusion Probabilistic Models. arXiv:2006.11239.
- Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben (10 лютого 2021). Score-Based Generative Modeling through Stochastic Differential Equations. arXiv:2011.13456 [cs, stat].
- Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). Vector Quantized Diffusion Model for Text-to-Image Synthesis. arXiv:2111.14822.
- Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak (2022). Diffusion models in vision: A survey. arXiv:2209.04747.
- Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (1 червня 2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics (PDF). Proceedings of the 32nd International Conference on Machine Learning (англ.). PMLR. 37: 2256—2265.
- Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125.
- Dhariwal, Prafulla; Nichol, Alex (1 червня 2021). Diffusion Models Beat GANs on Image Synthesis. arXiv:2105.05233 [cs, stat].
- Ho, Jonathan; Salimans, Tim (25 липня 2022). Classifier-Free Diffusion Guidance. arXiv:2207.12598 [cs].
- Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark (8 березня 2022). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. arXiv:2112.10741 [cs].
- Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (12 квітня 2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125 [cs].
- Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (23 травня 2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. arXiv:2205.11487 [cs].
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U mashinnomu navchanni difuzijni modeli takozh vidomi yak jmovirnisni modeli difuziyi ye klasom modelej prihovanih zminnih Ce lancyugi Markova navcheni za dopomogoyu variacijnogo visnovku Metoyu difuzijnih modelej ye vivchennya latentnoyi strukturi naboru danih shlyahom modelyuvannya togo yak tochki danih rozsiyuyutsya v latentnomu prostori U komp yuternomu zori ce oznachaye sho nejronna merezha navchayetsya zashumlyuvati zobrazhennya rozmiti gausovim shumom shlyahom navchannya zvorotnomu procesu difuziyi Tri prikladi zagalnih struktur modelyuvannya difuziyi sho vikoristovuyutsya v komp yuternomu zori ce imovirnisni modeli difuziyi z usunennyam shumu merezhi baliv z umovoyu shumu ta stohastichni diferencialni rivnyannya Difuzijni modeli buli predstavleni u 2015 roci motivuyuchis nelinijnoyu termodinamikoyu Difuzijni modeli mozhut buti zastosovani do riznomanitnih zavdan zokrema dlya usunennya shumiv zobrazhennya rozfarbovuvannya superrozdilnosti ta generaciyi zobrazhen Napriklad model generaciyi zobrazhennya pochinayetsya z zobrazhennya vipadkovogo shumu a potim pislya navchannya reversu procesu difuziyi na prirodnih zobrazhennyah model zmozhe generuvati novi prirodni zobrazhennya Anonsovana 13 kvitnya 2022 roku model DALL E 2 OpenAI dlya peretvorennya tekstu v zobrazhennya ye nedavnim prikladom Vin vikoristovuye difuzijni modeli yak dlya poperednoyi modeli yaka stvoryuye vbudovuvannya zobrazhennya z tekstovim pidpisom tak i dlya dekodera yakij generuye ostatochne zobrazhennya Matematichni principiStvorennya zobrazhennya v prostori vsih zobrazhen Rozglyanemo zadachu generaciyi zobrazhen Nehaj 𝑥 zobrazhennya a 𝑝 𝑥 rozpodil jmovirnosti nad usima mozhlivimi zobrazhennyami Yaksho u nas ye same 𝑝 𝑥 to mi mozhemo tochno skazati naskilki jmovirnim ye pevne zobrazhennya Odnak v zagalnomu vipadku ce nerozv yazna zadacha Najchastishe mi ne zacikavleni v tomu shob znati absolyutnu jmovirnist togo sho pevne zobrazhennya ye koli yaksho vzagali nas cikavit naskilki jmovirnim ye zobrazhennya v prostori vsih mozhlivih zobrazhen Zamist cogo mi zazvichaj lishe zacikavleni v tomu naskilki virogidnim ye pevne zobrazhennya porivnyano z jogo bezposerednimi susidami naskilki imovirnishij ce zobrazhennya kota porivnyano z deyakimi jogo nevelikimi variantami Chi bilsh imovirno yaksho zobrazhennya mistit dva vusa abo tri abo z dodavannyam shumu Gausa Otzhe nas naspravdi zovsim ne cikavit sam p x displaystyle p x a radshe x ln p x displaystyle nabla x ln p x Ce zabezpechuye dva efekti Po pershe nam bilshe ne potribno normalizuvati p x displaystyle p x ale mi mozhemo vikoristovuvati bud yakij p x C p x displaystyle tilde p x Cp x de C p x d x gt 0 displaystyle C int tilde p x dx gt 0 ce bud yaka nevidoma konstanta yaka nas ne cikavit Po druge mi porivnyuyemo p x displaystyle p x susidiv p x d x displaystyle p x dx za p x p x d x e x ln p d x displaystyle frac p x p x dx e langle nabla x ln p dx rangle Nehaj funkciya ocinki ye s x x ln p x displaystyle s x nabla x ln p x rozglyanemo sho mi mozhemo zrobiti z s x displaystyle s x Yak viyavlyayetsya s x displaystyle s x dozvolyaye nam brati zrazki z p x displaystyle p x vikoristovuyuchi stohastichnu gradiyentnu dinamiku Lanzhevena yaka po suti ye neskinchenno maloyu versiyeyu lancyuga Markova Monte Karlo Vivchennya funkciyi ocinki Funkciyu ocinki mozhna diznatisya za dopomogoyu shumozaglushennya Osnovni variantiKerivnictvo klasifikatora Pripustimo mi hochemo vzyati vibirku ne z usogo rozpodilu zobrazhen a zalezhno vid opisu zobrazhennya Mi ne hochemo vzyati zrazok zagalnogo zobrazhennya a zobrazhennya yake vidpovidaye opisu chornij kit z chervonimi ochima Yak pravilo mi hochemo vzyati vibirku z rozpodilu p x y displaystyle p x y de diapazoni zobrazhen x displaystyle x i y displaystyle y diapazoni po klasah zobrazhen opis chornij kit z chervonimi ochima ce lishe duzhe detalnij klas a klas kit ce lishe duzhe rozplivchastij opis Rozglyanuvshi model shumovogo kanalu mi mozhemo zrozumiti proces takim chinom stvoriti zobrazhennya x displaystyle x umovnij za opisom y displaystyle y mi pripuskayemo sho zapituvach dijsno mav na uvazi zobrazhennya x displaystyle x ale zobrazhennya prohodit cherez shumovij kanal i vihodit spotvorenim yak y displaystyle y Takim chinom generaciya zobrazhennya ye nichim inshim yak visnovkom pro te sho ye x displaystyle x sho zapituvach mav na uvazi Inshimi slovami generaciya umovnogo zobrazhennya ce prosto pereklad z movi tekstu na movu zobrazhennya Potim yak i v modeli shumovogo kanalu mi vikoristovuyemo teoremu Bayesa shob otrimatip x y p y x x displaystyle p x y propto p y x x Inshimi slovami yaksho u nas ye horosha model prostoru vsih zobrazhen i horoshij perekladach zobrazhennya klasu mi otrimuyemo perekladach klasu zobrazhennya bezkoshtovno SGLD vikoristovuye x ln p x y x ln p y x x ln p x displaystyle nabla x ln p x y nabla x ln p y x nabla x ln p x de x ln p x displaystyle nabla x ln p x ce funkciya ocinki navchena yak opisano ranishe i x ln p y x displaystyle nabla x ln p y x znajdeno za dopomogoyu klasifikatora diferencijovanogo zobrazhennya Z temperaturoyu Zrazki modeli difuziyi kerovanoyi klasifikatorom p x y displaystyle p x y yaka zoseredzhena navkolo maksimalnoyi aposteriornoyi ocinki arg max x p x y displaystyle arg max x p x y Yaksho mi hochemo zmusiti model ruhatisya do ocinki maksimalnoyi jmovirnosti arg max x p y x displaystyle arg max x p y x mi mozhemo vikoristovuvatip b x y p y x b x displaystyle p beta x y propto p y x beta x de b gt 0 displaystyle beta gt 0 interpretuyetsya yak zvorotna temperatura U konteksti difuzijnih modelej yiyi zazvichaj nazivayut kerivnoyu shkaloyu Visokij b displaystyle beta zmusit model brati vibirku z rozpodilu zoseredzhenogo navkolo arg max x p y x displaystyle arg max x p y x Ce chasto pokrashuye yakist stvorenih zobrazhen Ce mozhna zrobiti prosto za dopomogoyu SGLD x ln p b x y b x ln p y x x ln p x displaystyle nabla x ln p beta x y beta nabla x ln p y x nabla x ln p x Kerivnictvo bez klasifikatora Yaksho u nas nemaye klasifikatora p y x displaystyle p y x mi vse odno mozhemo vityagti odin iz samoyi modeli zobrazhennya x ln p b x y 1 b x ln p x b x ln p x y displaystyle nabla x ln p beta x y 1 beta nabla x ln p x beta nabla x ln p x y Taku model zazvichaj trenuyut pred yavlyayuchi yiyi oboma x y displaystyle x y i x N o n e displaystyle x None sho daye zmogu modelyuvati obidva x ln p x y displaystyle nabla x ln p x y i x ln p x displaystyle nabla x ln p x Ce nevid yemna chastina takih sistem yak GLIDE DALL E i Google Imagen Div takozhProces difuziyi Lancyug Markova Variational Bayesian methods Variacijnij avtokoduvalnikSpisok literaturiHo Jonathan Jain Ajay Abbeel Pieter 19 chervnya 2020 Denoising Diffusion Probabilistic Models arXiv 2006 11239 Song Yang Sohl Dickstein Jascha Kingma Diederik P Kumar Abhishek Ermon Stefano Poole Ben 10 lyutogo 2021 Score Based Generative Modeling through Stochastic Differential Equations arXiv 2011 13456 cs stat Gu Shuyang Chen Dong Bao Jianmin Wen Fang Zhang Bo Chen Dongdong Yuan Lu Guo Baining 2021 Vector Quantized Diffusion Model for Text to Image Synthesis arXiv 2111 14822 Croitoru Florinel Alin Hondru Vlad Ionescu Radu Tudor Shah Mubarak 2022 Diffusion models in vision A survey arXiv 2209 04747 Sohl Dickstein Jascha Weiss Eric Maheswaranathan Niru Ganguli Surya 1 chervnya 2015 Deep Unsupervised Learning using Nonequilibrium Thermodynamics PDF Proceedings of the 32nd International Conference on Machine Learning angl PMLR 37 2256 2265 Ramesh Aditya Dhariwal Prafulla Nichol Alex Chu Casey Chen Mark 2022 Hierarchical Text Conditional Image Generation with CLIP Latents arXiv 2204 06125 Dhariwal Prafulla Nichol Alex 1 chervnya 2021 Diffusion Models Beat GANs on Image Synthesis arXiv 2105 05233 cs stat Ho Jonathan Salimans Tim 25 lipnya 2022 Classifier Free Diffusion Guidance arXiv 2207 12598 cs Nichol Alex Dhariwal Prafulla Ramesh Aditya Shyam Pranav Mishkin Pamela McGrew Bob Sutskever Ilya Chen Mark 8 bereznya 2022 GLIDE Towards Photorealistic Image Generation and Editing with Text Guided Diffusion Models arXiv 2112 10741 cs Ramesh Aditya Dhariwal Prafulla Nichol Alex Chu Casey Chen Mark 12 kvitnya 2022 Hierarchical Text Conditional Image Generation with CLIP Latents arXiv 2204 06125 cs Saharia Chitwan Chan William Saxena Saurabh Li Lala Whang Jay Denton Emily Ghasemipour Seyed Kamyar Seyed Ayan Burcu Karagol Mahdavi S Sara 23 travnya 2022 Photorealistic Text to Image Diffusion Models with Deep Language Understanding arXiv 2205 11487 cs