Stable Diffusion — це модель глибокого навчання для перетворення тексту в зображення, випущена у 2022 році. Використовується переважно для генерування детальних зображень на основі текстових описів або модифікації зображень. Розроблена стартапом Stability AI у співпраці з низкою академічних дослідників і некомерційних організацій.
Тип | текст-у-зображення |
---|---|
Розробник | Stability AI |
Перший випуск | 22 серпня 2022 |
Стабільний випуск | SDXL 1.0 (model) (26 липня 2023) |
Операційна система | Всі що підтримують CUDA |
Мова програмування | Python |
Ліцензія | Creative ML OpenRAIL-M |
Репозиторій | github.com/Stability-AI/stablediffusion |
Вебсайт | stability.ai/stable-image |
|
Stable Diffusion — це модель прихованої дифузії, різновид глибокої генеративної нейронної мережі. Його код і ваги моделі були опубліковані, і він може працювати на більшості споживчого обладнання, оснащеного скромним графічним процесором із принаймні 8 ГБ VRAM. Це означало відхід від попередніх власних моделей перетворення тексту в зображення, таких як DALL-E та Midjourney, які були доступні лише через хмарні служби.
Розробка
Розробку Stable Diffusion фінансувала та формувала нова компанія Stability AI .Технічну ліцензію на модель видала група CompVis Мюнхенського університету імені Людвіга Максиміліана. Розробкою керували Патрік Ессер і Робін Ромбах, які були серед дослідників, які раніше винайшли архітектуру моделі латентної дифузії, яку використовував Stable Diffusion. Stability AI також назвав Eleuther AI та LAION як прихильників проекту.
У жовтні 2022 року Stability AI залучив 101 мільйон дол. США під час раунду під керівництвом Lightspeed Venture Partners і Coatu Management.
Технології
Архітектура
У Stable Diffusion використовується модель дифузії (DM), яка називається моделлю латентної дифузії (LDM), розроблена групою CompVis у LMU Munich. Представлені в 2015 році дифузійні моделі навчаються з метою усунення послідовних застосувань гаусового шуму на навчальних зображеннях, які можна розглядати як послідовність усунення шумів автокодерів. Stable Diffusion складається з 3 частин: варіаційного автокодувальника (VAE), U-Net і додаткового текстового кодувальника. Кодер VAE стискає зображення з піксельного простору до меншого розмірного прихованого простору, захоплюючи більш фундаментальне семантичне значення зображення. Гаусівський шум ітеративно застосовується до стисненого латентного представлення під час прямої дифузії. Блок U-Net, що складається з магістралі ResNet, знімає шум на виході прямої дифузії назад, щоб отримати приховане представлення. Декодер VAE генерує остаточне зображення, перетворюючи представлення назад у простір пікселів. Етап усунення шумів можна гнучко налаштувати на рядок тексту, зображення або іншу модальність. Закодовані дані кондиціонування піддаються знешумленню U-Nets через механізм перехресного звернення уваги. Для кондиціонування тексту використовується фіксований попередньо навчений текстовий кодер CLIP ViT-L/14 для перетворення текстових підказок у простір для вбудовування. Дослідники вказують на підвищення обчислювальної ефективності для навчання та генерації як на перевагу LDM.
Тренувальні дані
Stable Diffusion було навчено на парах зображень і підписів, взятих із LAION-5B, загальнодоступного набору даних, отриманого з даних Common Crawl, зібраних з Інтернету, де 5 мільярдів пар зображення та тексту класифіковано на основі мови та відфільтровано в окремі набори даних за роздільною здатністю, прогнозована ймовірність вмісту водяного знака та прогнозована «естетична» оцінка (суб'єктивна візуальна якість тощо). Набір даних створено німецькою некомерційною організацією LAION, яка отримує фінансування від Stability AI.
Stable Diffusion була навчена на трьох підмножинах LAION-5B: laion2B-en, laion-high-resolution і laion-aesthetics v2 5+. Аналіз тренувальних даних моделі третьою стороною виявив, що з меншої підмножини з 12 мільйонів зображень, взятих із оригінального ширшого набору даних, приблизно 47 % розміру вибірки зображень походять із 100 різних доменів, при цьому Pinterest займає 8,5 % підмножини, а потім такі веб-сайти, як WordPress, Blogspot, Flickr, DeviantArt й Wikimedia Commons.
Навчальні процедури
Спочатку модель тренувалась на підмножинах laion2B-en і laion-high-resolution, а останні кілька раундів навчання було виконано на LAION-Aesthetics v2 5+, підмножині з 600 мільйонів зображень із підписами, які передбачив LAION-Aesthetics Predictor V2. Люди, у середньому, дадуть оцінку принаймні 5 із 10, коли їх попросять оцінити, наскільки вони їм подобаються. Піднабір LAION-Aesthetics v2 5+ також виключив зображення з низькою роздільною здатністю та зображення, які LAION-5B-WatermarkDetection ідентифікував як такі, що містять водяний знак з імовірністю понад 80 %.
Модель тренувалася з використанням 256 графічних процесорів Nvidia A100 у веб-сервісах Amazon загалом 150 000 GPU-годин за ціною 600 000 дол. США.
Обмеження
Тонко налаштовані адаптації Stable Diffusion, створені шляхом додаткового перенавчання, використовувалися для різних випадків використання, від медичних зображень до алгоритмічно створеної музики. Однак цей процес тонкого налаштування залежить від якості нових даних. Зображення з низькою роздільною здатністю або роздільною здатністю, що відрізняється від вихідних даних, можуть не тільки не засвоїти нове завдання, але й погіршити загальну продуктивність моделі. Навіть якщо модель додатково навчена на високоякісних зображеннях, людям важко запускати моделі в споживчій електроніці. Наприклад, процес навчання вайфу-дифузії вимагає мінімум 30 ГБ відеопам'яті, що перевищує звичайний ресурс у споживчих графічних процесорах, таких як серія GeForce 30 від Nvidia, яка має близько 12 ГБ.
Розробники Stable Diffusion визнають потенціал для алгоритмічного упередження, оскільки модель в основному навчалася на зображеннях з описом англійською мовою. Як наслідок — створені зображення посилюють соціальні упередження та відображають західну точку зору, оскільки творці відзначають, що моделі бракує даних з інших спільнот і культур. Модель дає точніші результати для підказок, написаних англійською мовою, порівняно з тими, що написані іншими мовами, де за умовчанням часто виступає західна або біла культури.
Точне налаштування кінцевого користувача
Щоб усунути обмеження початкового навчання моделі, кінцеві користувачі можуть вибрати додаткове навчання для точного налаштування вихідних даних генерації відповідно до більш конкретних випадків використання. Існує три методи, за допомогою яких доступне для користувача тонке налаштування можна застосувати до контрольної точки моделі стабільної дифузії:
- «Вбудовування» можна навчити з колекції зображень, наданих користувачем, і дозволяє моделі створювати візуально подібні зображення щоразу, коли ім'я вбудовування використовується в підказці створення. Вбудовування базуються на концепції «текстової інверсії», розробленій дослідниками з Тель-Авівського університету в 2022 році за підтримки Nvidia, де векторні представлення для конкретних токенів, що використовуються текстовим кодувальником моделі, пов'язані з новими псевдословами. Вбудовування можна використовувати, щоб зменшити упередження в оригінальній моделі або імітувати візуальні стилі.
- «Гіпермережа» — це невелика попередньо навчена нейронна мережа, яка застосовується до різних точок у більшій нейронній мережі, і відноситься до техніки, створеної розробником NovelAI Kurumuz у 2021 році, спочатку призначеної для трансформерних моделей генерації тексту. Гіпермережі спрямовують результати в певному напрямку, дозволяючи моделям на основі стабільної дифузії імітувати художній стиль певних художників, навіть якщо художник не впізнається оригінальною моделлю; вони обробляють зображення, знаходячи ключові важливі області, такі як волосся та очі, а потім заправляють ці області у вторинному латентному просторі.
- DreamBooth — це модель генерації глибокого навчання, розроблена дослідниками з Google Research і Бостонського університету в 2022 році, яка може налаштувати модель для генерації точних персоналізованих результатів, які зображують певний предмет, після навчання за допомогою набору зображень, які зображують цей предмет.
Можливості
Модель Stable Diffusion підтримує можливість генерувати нові зображення з нуля за допомогою текстової підказки з описом елементів, які слід включити або виключити з результату. Існуючі зображення можуть бути перемальовані моделлю, щоб включити нові елементи, описані текстовою підказкою за допомогою механізму дифузії та зменшення шуму. Крім того, модель також дає змогу використовувати підказки для часткової зміни існуючих зображень за допомогою зафарбовування та зафарбовування, якщо використовується з відповідним інтерфейсом користувача, який підтримує такі функції, для яких існує безліч різних реалізацій із відкритим кодом.
Stable Diffusion рекомендується запускати щонайменше з 10 ГБ відеопам'яті, проте з меншим об'ємом VRAM можливо вибрати завантаження вагових коефіцієнтів із точністю float16 замість стандартного float32 для компромісу продуктивності моделі з меншим використанням VRAM.
Генерація тексту в зображення
Сценарій вибірки тексту в зображення в Stable Diffusion, відомий як «txt2img», використовує текстову підказку на додаток до різноманітних параметрів параметрів, що охоплюють типи вибірки, розміри вихідного зображення та вихідні значення. Сценарій виводить файл зображення на основі інтерпретації підказки моделлю. Згенеровані зображення позначаються невидимим цифровим водяним знаком, щоб дозволити користувачам ідентифікувати зображення як згенероване за допомогою Stable Diffusion хоч цей водяний знак втрачає свою ефективність, якщо зображенням змінюють розмір або обертають.
Кожне покоління txt2img включатиме певне початкове значення, яке впливає на вихідне зображення. Користувачі можуть вибрати рандомізацію початкового числа, щоб досліджувати різні згенеровані результати, або використовувати те саме початкове число, щоб отримати той самий результат зображення, що й попередньо створене зображення. Користувачі також можуть регулювати кількість кроків висновку для семплера; більш високе значення займає більше часу, однак менше значення може призвести до візуальних дефектів. Ще один параметр — значення вказівної шкали без класифікатора, дозволяє користувачеві регулювати, наскільки вихідне зображення відповідає текстовому опису.
Додаткові функції text2img надаються зовнішніми реалізаціями Stable Diffusion, які дозволяють користувачам змінювати вагу, надану певним частинам текстового підказки. Маркери виділення дозволяють користувачам додавати або зменшувати акцент на ключових словах, укладаючи їх у дужки. Альтернативним методом коригування ваги частин підказки є «негативні підказки». Негативні підказки є функцією, включеною в деякі зовнішні реалізації, включаючи власну хмарну службу DreamStudio від Stability AI, і дозволяють користувачеві вказувати підказки, яких модель повинна уникати під час створення зображення. Зазначені підказки можуть бути небажаними властивостями зображення, які інакше були б присутні в результатах зображення через позитивні підказки, надані користувачем, або через те, як модель була початково навчена, з понівеченими людськими руками, як поширений приклад.
Модифікація зображення
Stable Diffusion також включає інший сценарій вибірки, «img2img», який використовує текстову підказку, шлях до наявного зображення та значення сили від 0,0 до 1,0. Сценарій виводить нове зображення на основі оригінального зображення, яке також містить елементи, надані в текстовому запиті. Значення інтенсивності вказує на кількість шуму, доданого до вихідного зображення. Більше значення міцності створює більше варіацій всередині зображення, але може створити зображення, яке семантично не відповідає наданій підказці.
Здатність img2img додавати шум до оригінального зображення робить його потенційно корисним для анонімізації та розширення даних, коли візуальні характеристики даних зображення змінюються та анонімізуються. Той самий процес також може бути корисним для масштабування зображення, під час якого роздільна здатність зображення збільшується з потенційним додаванням більшої кількості деталей до зображення. Крім того, Stable Diffusion експериментували як інструмент для стиснення зображень. Порівняно з JPEG і WebP останні методи, що використовуються для стиснення зображень у Stable Diffusion, стикаються з обмеженнями щодо збереження дрібного тексту та граней.
Додаткові випадки використання для модифікації зображення за допомогою img2img пропонують численні інтерфейсні реалізації моделі Stable Diffusion. Inpainting передбачає вибіркову зміну частини існуючого зображення, окресленого наданою користувачем маскою шару, яка заповнює замаскований простір новоствореним вмістом на основі наданої підказки. Разом із випуском Stable Diffusion 2.0 компанією Stability AI була створена спеціальна модель, спеціально налаштована для малювання сценаріїв використання. І навпаки, замальовування розширює зображення за його початкові розміри, заповнюючи раніше порожній простір вмістом, створеним на основі наданої підказки.
Модель із керуванням глибиною під назвою «depth2img» була представлена разом із випуском Stable Diffusion 2.0 24 листопада 2022 року; ця модель робить висновок про глибину наданого вхідного зображення та генерує нове вихідне зображення на основі як текстового підказки, так і інформації про глибину, що дозволяє підтримувати когерентність і глибину оригінального вхідного зображення у згенерованому виході.
ControlNet
ControlNet — це архітектура нейронної мережі, призначена для керування дифузійними моделями шляхом включення додаткових умов. Він дублює ваги блоків нейронної мережі в «заблоковану» копію та «придатну для навчання» копію. «Навчувана» копія вивчає потрібний стан, тоді як «заблокована» копія зберігає оригінальну модель. Цей підхід гарантує, що навчання з невеликими наборами даних пар зображень не порушить цілісність готових до виробництва дифузійних моделей. «Нульова згортка» — це згортка 1×1 з вагою та зміщенням, ініціалізованими до нуля. Перед навчанням усі нульові згортки дають нульовий вихід, запобігаючи будь-яким спотворенням, викликаним ControlNet. Жоден шар не навчається з нуля; процес ще точно налаштовується, зберігаючи вашу оригінальну модель у безпеці. Цей метод дозволяє тренуватися на невеликих або навіть персональних пристроях.
Використання та суперечки
Stable Diffusion не претендує на жодні права на згенеровані зображення та вільно надає користувачам права на використання будь-яких згенерованих зображень із моделі за умови, що вміст зображення не є незаконним або шкідливим для окремих осіб. Свобода, яка надається користувачам щодо використання зображень, спричинила суперечки щодо етики власності, оскільки Stable Diffusion та інші генеративні моделі навчаються із захищених авторським правом зображень без згоди власника.
Оскільки візуальні стилі та композиції не підлягають авторському праву, часто вважається, що користувачів Stable Diffusion, які створюють зображення творів мистецтва, не слід вважати такими, що порушують авторські права на візуально схожі твори. Однак особи, зображені на створених зображеннях, можуть бути захищені правами особистості, якщо використовується їхня схожість, а інтелектуальна власність, така як впізнавані логотипи брендів, все ще залишається захищеною авторським правом. Тим не менш, художники висловлюють стурбованість тим, що широке використання програмного забезпечення для синтезу зображень, такого як Stable Diffusion, може врешті-решт призвести до того, що художники-люди, а також фотографи, моделі, оператори та актори, поступово втратять комерційну життєздатність проти конкурентів на основі ШІ.
Порівняно з іншими комерційними продуктами, заснованими на генеративному штучному інтелекті, Stable Diffusion є значно більш дозволеним щодо типів контенту, який можуть створювати користувачі, наприклад зображень насильства чи відверто сексуального характеру. Відповідаючи на занепокоєння щодо того, що модель може бути використана для зловживань, генеральний директор Stability AI Емад Мостаке пояснює, що «люди відповідають за етичні, моральні та законні принципи використання цієї технології». і що передача можливостей Stable Diffusion в руки громадськості призведе до того, що технологія забезпечить чисту вигоду, незважаючи на потенційні негативні наслідки. Крім того, Мостак стверджує, що намір відкритої доступності Stable Diffusion полягає в тому, щоб покласти край корпоративному контролю та домінуванню над такими технологіями, які раніше розробляли лише закриті системи ШІ для синтезу зображень. Це відображається в тому факті, що будь-які обмеження Stability AI на контент, який можуть створювати користувачі, можна легко обійти завдяки доступності вихідного коду.
У січні 2023 року троє художників: Сара Андерсен, Келлі МакКернан і Карла Ортіс подали позов про порушення авторських прав проти Stability AI, Midjourney і DeviantArt, стверджуючи, що ці компанії порушили права мільйонів художників, навчивши інструменти ШІ на п'ять мільярдів зображення, взяті з Інтернету без згоди оригінальних художників. Того ж місяця Getty Images також подала до суду на Stability AI за використання її зображень у навчальних даних.
Ліцензія
На відміну від таких моделей, як DALL-E, Stable Diffusion робить вихідний код доступним разом із моделлю (попередньо підготовлені ваги). Він застосовує ліцензію Creative ML OpenRAIL-M, форму ліцензії відповідального штучного інтелекту (RAIL), до моделі (M). Ліцензія забороняє певні випадки використання, зокрема злочини, наклепи, переслідування, доксинг, «експлуатацію… неповнолітніх», надання медичних порад, автоматичне створення юридичних зобов'язань, надання юридичних доказів і «дискримінацію або заподіяння шкоди особам чи групам на основі… соціальна поведінка або… особисті чи особистісні характеристики… [або] захищені законом характеристики або категорії». Користувач володіє правами на створені ними вихідні зображення та може вільно використовувати їх у комерційних цілях.
Див. також
Примітки
- Announcing SDXL 1.0. stability.ai. оригіналу за 26 липня 2023.
- Diffuse The Rest - a Hugging Face Space by huggingface. huggingface.co. оригіналу за 5 вересня 2022. Процитовано 5 вересня 2022.
- Stable Diffusion Repository on GitHub. CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 вересня 2022. Процитовано 17 вересня 2022.
- The new killer app: Creating AI art will absolutely crush your PC. PCWorld. оригіналу за 31 серпня 2022. Процитовано 31 серпня 2022.
- Korn, Jennifer (17 січня 2023). Getty Images suing the makers of popular AI art tool for allegedly stealing photos. CNN (англ.). Процитовано 22 січня 2023.
- Wiggers, Kyle (17 жовтня 2022). Stability AI, the startup behind Stable Diffusion, raises $101M. Techcrunch (англ.). Процитовано 17 жовтня 2022.
- Alammar, Jay. The Illustrated Stable Diffusion. jalammar.github.io. Процитовано 31 жовтня 2022.
- Baio, Andy (30 серпня 2022). Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator. Waxy.org (амер.). Процитовано 2 листопада 2022.
- This artist is dominating AI-generated art. And he's not happy about it. MIT Technology Review (англ.). Процитовано 2 листопада 2022.
- Ivanovs, Alex (8 вересня 2022). Stable Diffusion: Tutorials, Resources, and Tools. Stack Diary (амер.). Процитовано 2 листопада 2022.
- Schuhmann, Christoph (2 листопада 2022), CLIP+MLP Aesthetic Score Predictor, процитовано 2 листопада 2022
- LAION-Aesthetics | LAION. laion.ai (англ.). оригіналу за 26 серпня 2022. Процитовано 2 вересня 2022.
- Mostaque, Emad (28 серпня 2022). Cost of construction. Twitter (англ.). оригіналу за 6 вересня 2022. Процитовано 6 вересня 2022.
- CompVis/stable-diffusion-v1-4 · Hugging Face. huggingface.co. Процитовано 2 листопада 2022.
- Wiggers, Kyle (12 серпня 2022). A startup wants to democratize the tech behind DALL-E 2, consequences be damned. TechCrunch (амер.). Процитовано 2 листопада 2022.
- Seth Forsgren; Hayk Martiros. Riffusion - Stable diffusion for real-time music generation. Riffusion. оригіналу за 16 грудня 2022.
- Mercurio, Anthony (31 жовтня 2022), Waifu Diffusion, процитовано 31 жовтня 2022
- Smith, Ryan. NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money. www.anandtech.com. Процитовано 31 жовтня 2022.
- Dave James (28 жовтня 2022). I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann. PC Gamer. оригіналу за 9 листопада 2022.
- NovelAI Improvements on Stable Diffusion. NovelAI. 11 жовтня 2022. Архів оригіналу за 27 жовтня 2022.
- Yuki Yamashita (1 вересня 2022). 愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発. ITmedia Inc. (яп.). оригіналу за 31 серпня 2022.
- Stable Diffusion web UI. GitHub. 10 листопада 2022.
- Stable Diffusion with 🧨 Diffusers. huggingface.co. Процитовано 31 жовтня 2022.
- invisible-watermark, Shield Mountain, 2 листопада 2022, процитовано 2 листопада 2022
- stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools. GitHub (англ.). Процитовано 2 листопада 2022.
- Заповніть пропущені параметри: назву і/або авторів. arXiv:[1].
- Bühlmann, Matthias (28 вересня 2022). Stable Diffusion Based Image Compression. Medium (англ.). Процитовано 2 листопада 2022.
- Stable Diffusion 2.0 Release. stability.ai. оригіналу за 10 грудня 2022.
- Zhang, Lvmin (10 лютого 2023). Adding Conditional Control to Text-to-Image Diffusion Models. Процитовано 10 лютого 2023.
- Cai, Kenrick. Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion. Forbes (англ.). Процитовано 31 жовтня 2022.
- 高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI. Automaton Media (яп.). 24 серпня 2022.
- Ryo Shimizu (26 серпня 2022). Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由. Business Insider Japan (яп.).
- James Vincent «AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit» The Verge, 16 January, 2023.
- Stable Diffusion Public Release. Stability.Ai. оригіналу за 30 серпня 2022. Процитовано 31 серпня 2022.
- From RAIL to Open RAIL: Topologies of RAIL Licenses. Responsible AI Licenses (RAIL) (амер.). Процитовано 20 лютого 2023.
- Ready or not, mass video deepfakes are coming. The Washington Post. 30 серпня 2022. оригіналу за 31 серпня 2022. Процитовано 31 серпня 2022.
- License - a Hugging Face Space by CompVis. huggingface.co. оригіналу за 4 вересня 2022. Процитовано 5 вересня 2022.
- Katsuo Ishida (26 серпня 2022). 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能. Impress Corporation (яп.).
Посилання
- Демо Stable Diffusion
- Інтерактивне пояснення Stable Diffusion
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Stable Diffusion ce model glibokogo navchannya dlya peretvorennya tekstu v zobrazhennya vipushena u 2022 roci Vikoristovuyetsya perevazhno dlya generuvannya detalnih zobrazhen na osnovi tekstovih opisiv abo modifikaciyi zobrazhen Rozroblena startapom Stability AI u spivpraci z nizkoyu akademichnih doslidnikiv i nekomercijnih organizacij Stable DiffusionTiptekst u zobrazhennyaRozrobnikStability AIPershij vipusk22 serpnya 2022Stabilnij vipuskSDXL 1 0 model 26 lipnya 2023 Operacijna sistemaVsi sho pidtrimuyut CUDAMova programuvannyaPythonLicenziyaCreative ML OpenRAIL MRepozitorijgithub com Stability AI stablediffusionVebsajtstability ai stable image Mediafajli u Vikishovishi Stable Diffusion ce model prihovanoyi difuziyi riznovid glibokoyi generativnoyi nejronnoyi merezhi Jogo kod i vagi modeli buli opublikovani i vin mozhe pracyuvati na bilshosti spozhivchogo obladnannya osnashenogo skromnim grafichnim procesorom iz prinajmni 8 GB VRAM Ce oznachalo vidhid vid poperednih vlasnih modelej peretvorennya tekstu v zobrazhennya takih yak DALL E ta Midjourney yaki buli dostupni lishe cherez hmarni sluzhbi RozrobkaRozrobku Stable Diffusion finansuvala ta formuvala nova kompaniya Stability AI Tehnichnu licenziyu na model vidala grupa CompVis Myunhenskogo universitetu imeni Lyudviga Maksimiliana Rozrobkoyu keruvali Patrik Esser i Robin Rombah yaki buli sered doslidnikiv yaki ranishe vinajshli arhitekturu modeli latentnoyi difuziyi yaku vikoristovuvav Stable Diffusion Stability AI takozh nazvav Eleuther AI ta LAION yak prihilnikiv proektu U zhovtni 2022 roku Stability AI zaluchiv 101 miljon dol SShA pid chas raundu pid kerivnictvom Lightspeed Venture Partners i Coatu Management TehnologiyiDiagrama arhitekturi prihovanoyi difuziyi yaku vikoristovuye Stable Diffusion Proces usunennya shumiv yakij vikoristovuye Stable Diffusion Model generuye zobrazhennya shlyahom iterativnogo usunennya vipadkovogo shumu doki ne bude dosyagnuto nalashtovanu kilkist krokiv keruyuchis koduvalnikom tekstu CLIP poperedno navchenim na koncepciyah razom iz mehanizmom uvagi sho prizvodit do bazhanogo zobrazhennya sho zobrazhuye predstavlennya navchenoyi koncepciyi Arhitektura U Stable Diffusion vikoristovuyetsya model difuziyi DM yaka nazivayetsya modellyu latentnoyi difuziyi LDM rozroblena grupoyu CompVis u LMU Munich Predstavleni v 2015 roci difuzijni modeli navchayutsya z metoyu usunennya poslidovnih zastosuvan gausovogo shumu na navchalnih zobrazhennyah yaki mozhna rozglyadati yak poslidovnist usunennya shumiv avtokoderiv Stable Diffusion skladayetsya z 3 chastin variacijnogo avtokoduvalnika VAE U Net i dodatkovogo tekstovogo koduvalnika Koder VAE stiskaye zobrazhennya z pikselnogo prostoru do menshogo rozmirnogo prihovanogo prostoru zahoplyuyuchi bilsh fundamentalne semantichne znachennya zobrazhennya Gausivskij shum iterativno zastosovuyetsya do stisnenogo latentnogo predstavlennya pid chas pryamoyi difuziyi Blok U Net sho skladayetsya z magistrali ResNet znimaye shum na vihodi pryamoyi difuziyi nazad shob otrimati prihovane predstavlennya Dekoder VAE generuye ostatochne zobrazhennya peretvoryuyuchi predstavlennya nazad u prostir pikseliv Etap usunennya shumiv mozhna gnuchko nalashtuvati na ryadok tekstu zobrazhennya abo inshu modalnist Zakodovani dani kondicionuvannya piddayutsya zneshumlennyu U Nets cherez mehanizm perehresnogo zvernennya uvagi Dlya kondicionuvannya tekstu vikoristovuyetsya fiksovanij poperedno navchenij tekstovij koder CLIP ViT L 14 dlya peretvorennya tekstovih pidkazok u prostir dlya vbudovuvannya Doslidniki vkazuyut na pidvishennya obchislyuvalnoyi efektivnosti dlya navchannya ta generaciyi yak na perevagu LDM Trenuvalni dani Stable Diffusion bulo navcheno na parah zobrazhen i pidpisiv vzyatih iz LAION 5B zagalnodostupnogo naboru danih otrimanogo z danih Common Crawl zibranih z Internetu de 5 milyardiv par zobrazhennya ta tekstu klasifikovano na osnovi movi ta vidfiltrovano v okremi nabori danih za rozdilnoyu zdatnistyu prognozovana jmovirnist vmistu vodyanogo znaka ta prognozovana estetichna ocinka sub yektivna vizualna yakist tosho Nabir danih stvoreno nimeckoyu nekomercijnoyu organizaciyeyu LAION yaka otrimuye finansuvannya vid Stability AI Stable Diffusion bula navchena na troh pidmnozhinah LAION 5B laion2B en laion high resolution i laion aesthetics v2 5 Analiz trenuvalnih danih modeli tretoyu storonoyu viyaviv sho z menshoyi pidmnozhini z 12 miljoniv zobrazhen vzyatih iz originalnogo shirshogo naboru danih priblizno 47 rozmiru vibirki zobrazhen pohodyat iz 100 riznih domeniv pri comu Pinterest zajmaye 8 5 pidmnozhini a potim taki veb sajti yak WordPress Blogspot Flickr DeviantArt j Wikimedia Commons Navchalni proceduri Spochatku model trenuvalas na pidmnozhinah laion2B en i laion high resolution a ostanni kilka raundiv navchannya bulo vikonano na LAION Aesthetics v2 5 pidmnozhini z 600 miljoniv zobrazhen iz pidpisami yaki peredbachiv LAION Aesthetics Predictor V2 Lyudi u serednomu dadut ocinku prinajmni 5 iz 10 koli yih poprosyat ociniti naskilki voni yim podobayutsya Pidnabir LAION Aesthetics v2 5 takozh viklyuchiv zobrazhennya z nizkoyu rozdilnoyu zdatnistyu ta zobrazhennya yaki LAION 5B WatermarkDetection identifikuvav yak taki sho mistyat vodyanij znak z imovirnistyu ponad 80 Model trenuvalasya z vikoristannyam 256 grafichnih procesoriv Nvidia A100 u veb servisah Amazon zagalom 150 000 GPU godin za cinoyu 600 000 dol SShA Obmezhennya Tonko nalashtovani adaptaciyi Stable Diffusion stvoreni shlyahom dodatkovogo perenavchannya vikoristovuvalisya dlya riznih vipadkiv vikoristannya vid medichnih zobrazhen do algoritmichno stvorenoyi muziki Odnak cej proces tonkogo nalashtuvannya zalezhit vid yakosti novih danih Zobrazhennya z nizkoyu rozdilnoyu zdatnistyu abo rozdilnoyu zdatnistyu sho vidriznyayetsya vid vihidnih danih mozhut ne tilki ne zasvoyiti nove zavdannya ale j pogirshiti zagalnu produktivnist modeli Navit yaksho model dodatkovo navchena na visokoyakisnih zobrazhennyah lyudyam vazhko zapuskati modeli v spozhivchij elektronici Napriklad proces navchannya vajfu difuziyi vimagaye minimum 30 GB videopam yati sho perevishuye zvichajnij resurs u spozhivchih grafichnih procesorah takih yak seriya GeForce 30 vid Nvidia yaka maye blizko 12 GB Rozrobniki Stable Diffusion viznayut potencial dlya algoritmichnogo uperedzhennya oskilki model v osnovnomu navchalasya na zobrazhennyah z opisom anglijskoyu movoyu Yak naslidok stvoreni zobrazhennya posilyuyut socialni uperedzhennya ta vidobrazhayut zahidnu tochku zoru oskilki tvorci vidznachayut sho modeli brakuye danih z inshih spilnot i kultur Model daye tochnishi rezultati dlya pidkazok napisanih anglijskoyu movoyu porivnyano z timi sho napisani inshimi movami de za umovchannyam chasto vistupaye zahidna abo bila kulturi Tochne nalashtuvannya kincevogo koristuvacha Shob usunuti obmezhennya pochatkovogo navchannya modeli kincevi koristuvachi mozhut vibrati dodatkove navchannya dlya tochnogo nalashtuvannya vihidnih danih generaciyi vidpovidno do bilsh konkretnih vipadkiv vikoristannya Isnuye tri metodi za dopomogoyu yakih dostupne dlya koristuvacha tonke nalashtuvannya mozhna zastosuvati do kontrolnoyi tochki modeli stabilnoyi difuziyi Vbudovuvannya mozhna navchiti z kolekciyi zobrazhen nadanih koristuvachem i dozvolyaye modeli stvoryuvati vizualno podibni zobrazhennya shorazu koli im ya vbudovuvannya vikoristovuyetsya v pidkazci stvorennya Vbudovuvannya bazuyutsya na koncepciyi tekstovoyi inversiyi rozroblenij doslidnikami z Tel Avivskogo universitetu v 2022 roci za pidtrimki Nvidia de vektorni predstavlennya dlya konkretnih tokeniv sho vikoristovuyutsya tekstovim koduvalnikom modeli pov yazani z novimi psevdoslovami Vbudovuvannya mozhna vikoristovuvati shob zmenshiti uperedzhennya v originalnij modeli abo imituvati vizualni stili Gipermerezha ce nevelika poperedno navchena nejronna merezha yaka zastosovuyetsya do riznih tochok u bilshij nejronnij merezhi i vidnositsya do tehniki stvorenoyi rozrobnikom NovelAI Kurumuz u 2021 roci spochatku priznachenoyi dlya transformernih modelej generaciyi tekstu Gipermerezhi spryamovuyut rezultati v pevnomu napryamku dozvolyayuchi modelyam na osnovi stabilnoyi difuziyi imituvati hudozhnij stil pevnih hudozhnikiv navit yaksho hudozhnik ne vpiznayetsya originalnoyu modellyu voni obroblyayut zobrazhennya znahodyachi klyuchovi vazhlivi oblasti taki yak volossya ta ochi a potim zapravlyayut ci oblasti u vtorinnomu latentnomu prostori DreamBooth ce model generaciyi glibokogo navchannya rozroblena doslidnikami z Google Research i Bostonskogo universitetu v 2022 roci yaka mozhe nalashtuvati model dlya generaciyi tochnih personalizovanih rezultativ yaki zobrazhuyut pevnij predmet pislya navchannya za dopomogoyu naboru zobrazhen yaki zobrazhuyut cej predmet MozhlivostiModel Stable Diffusion pidtrimuye mozhlivist generuvati novi zobrazhennya z nulya za dopomogoyu tekstovoyi pidkazki z opisom elementiv yaki slid vklyuchiti abo viklyuchiti z rezultatu Isnuyuchi zobrazhennya mozhut buti peremalovani modellyu shob vklyuchiti novi elementi opisani tekstovoyu pidkazkoyu za dopomogoyu mehanizmu difuziyi ta zmenshennya shumu Krim togo model takozh daye zmogu vikoristovuvati pidkazki dlya chastkovoyi zmini isnuyuchih zobrazhen za dopomogoyu zafarbovuvannya ta zafarbovuvannya yaksho vikoristovuyetsya z vidpovidnim interfejsom koristuvacha yakij pidtrimuye taki funkciyi dlya yakih isnuye bezlich riznih realizacij iz vidkritim kodom Stable Diffusion rekomenduyetsya zapuskati shonajmenshe z 10 GB videopam yati prote z menshim ob yemom VRAM mozhlivo vibrati zavantazhennya vagovih koeficiyentiv iz tochnistyu float16 zamist standartnogo float32 dlya kompromisu produktivnosti modeli z menshim vikoristannyam VRAM Generaciya tekstu v zobrazhennya Demonstraciya vplivu negativnih pidkazok na formuvannya imidzhu Top no negative prompt Centre green trees Bottom round stones round rocks Scenarij vibirki tekstu v zobrazhennya v Stable Diffusion vidomij yak txt2img vikoristovuye tekstovu pidkazku na dodatok do riznomanitnih parametriv parametriv sho ohoplyuyut tipi vibirki rozmiri vihidnogo zobrazhennya ta vihidni znachennya Scenarij vivodit fajl zobrazhennya na osnovi interpretaciyi pidkazki modellyu Zgenerovani zobrazhennya poznachayutsya nevidimim cifrovim vodyanim znakom shob dozvoliti koristuvacham identifikuvati zobrazhennya yak zgenerovane za dopomogoyu Stable Diffusion hoch cej vodyanij znak vtrachaye svoyu efektivnist yaksho zobrazhennyam zminyuyut rozmir abo obertayut Kozhne pokolinnya txt2img vklyuchatime pevne pochatkove znachennya yake vplivaye na vihidne zobrazhennya Koristuvachi mozhut vibrati randomizaciyu pochatkovogo chisla shob doslidzhuvati rizni zgenerovani rezultati abo vikoristovuvati te same pochatkove chislo shob otrimati toj samij rezultat zobrazhennya sho j poperedno stvorene zobrazhennya Koristuvachi takozh mozhut regulyuvati kilkist krokiv visnovku dlya semplera bilsh visoke znachennya zajmaye bilshe chasu odnak menshe znachennya mozhe prizvesti do vizualnih defektiv She odin parametr znachennya vkazivnoyi shkali bez klasifikatora dozvolyaye koristuvachevi regulyuvati naskilki vihidne zobrazhennya vidpovidaye tekstovomu opisu Dodatkovi funkciyi text2img nadayutsya zovnishnimi realizaciyami Stable Diffusion yaki dozvolyayut koristuvacham zminyuvati vagu nadanu pevnim chastinam tekstovogo pidkazki Markeri vidilennya dozvolyayut koristuvacham dodavati abo zmenshuvati akcent na klyuchovih slovah ukladayuchi yih u duzhki Alternativnim metodom koriguvannya vagi chastin pidkazki ye negativni pidkazki Negativni pidkazki ye funkciyeyu vklyuchenoyu v deyaki zovnishni realizaciyi vklyuchayuchi vlasnu hmarnu sluzhbu DreamStudio vid Stability AI i dozvolyayut koristuvachevi vkazuvati pidkazki yakih model povinna unikati pid chas stvorennya zobrazhennya Zaznacheni pidkazki mozhut buti nebazhanimi vlastivostyami zobrazhennya yaki inakshe buli b prisutni v rezultatah zobrazhennya cherez pozitivni pidkazki nadani koristuvachem abo cherez te yak model bula pochatkovo navchena z ponivechenimi lyudskimi rukami yak poshirenij priklad Modifikaciya zobrazhennya Stable Diffusion takozh vklyuchaye inshij scenarij vibirki img2img yakij vikoristovuye tekstovu pidkazku shlyah do nayavnogo zobrazhennya ta znachennya sili vid 0 0 do 1 0 Scenarij vivodit nove zobrazhennya na osnovi originalnogo zobrazhennya yake takozh mistit elementi nadani v tekstovomu zapiti Znachennya intensivnosti vkazuye na kilkist shumu dodanogo do vihidnogo zobrazhennya Bilshe znachennya micnosti stvoryuye bilshe variacij vseredini zobrazhennya ale mozhe stvoriti zobrazhennya yake semantichno ne vidpovidaye nadanij pidkazci Zdatnist img2img dodavati shum do originalnogo zobrazhennya robit jogo potencijno korisnim dlya anonimizaciyi ta rozshirennya danih koli vizualni harakteristiki danih zobrazhennya zminyuyutsya ta anonimizuyutsya Toj samij proces takozh mozhe buti korisnim dlya masshtabuvannya zobrazhennya pid chas yakogo rozdilna zdatnist zobrazhennya zbilshuyetsya z potencijnim dodavannyam bilshoyi kilkosti detalej do zobrazhennya Krim togo Stable Diffusion eksperimentuvali yak instrument dlya stisnennya zobrazhen Porivnyano z JPEG i WebP ostanni metodi sho vikoristovuyutsya dlya stisnennya zobrazhen u Stable Diffusion stikayutsya z obmezhennyami shodo zberezhennya dribnogo tekstu ta granej Dodatkovi vipadki vikoristannya dlya modifikaciyi zobrazhennya za dopomogoyu img2img proponuyut chislenni interfejsni realizaciyi modeli Stable Diffusion Inpainting peredbachaye vibirkovu zminu chastini isnuyuchogo zobrazhennya okreslenogo nadanoyu koristuvachem maskoyu sharu yaka zapovnyuye zamaskovanij prostir novostvorenim vmistom na osnovi nadanoyi pidkazki Razom iz vipuskom Stable Diffusion 2 0 kompaniyeyu Stability AI bula stvorena specialna model specialno nalashtovana dlya malyuvannya scenariyiv vikoristannya I navpaki zamalovuvannya rozshiryuye zobrazhennya za jogo pochatkovi rozmiri zapovnyuyuchi ranishe porozhnij prostir vmistom stvorenim na osnovi nadanoyi pidkazki Model iz keruvannyam glibinoyu pid nazvoyu depth2img bula predstavlena razom iz vipuskom Stable Diffusion 2 0 24 listopada 2022 roku cya model robit visnovok pro glibinu nadanogo vhidnogo zobrazhennya ta generuye nove vihidne zobrazhennya na osnovi yak tekstovogo pidkazki tak i informaciyi pro glibinu sho dozvolyaye pidtrimuvati kogerentnist i glibinu originalnogo vhidnogo zobrazhennya u zgenerovanomu vihodi ControlNet ControlNet ce arhitektura nejronnoyi merezhi priznachena dlya keruvannya difuzijnimi modelyami shlyahom vklyuchennya dodatkovih umov Vin dublyuye vagi blokiv nejronnoyi merezhi v zablokovanu kopiyu ta pridatnu dlya navchannya kopiyu Navchuvana kopiya vivchaye potribnij stan todi yak zablokovana kopiya zberigaye originalnu model Cej pidhid garantuye sho navchannya z nevelikimi naborami danih par zobrazhen ne porushit cilisnist gotovih do virobnictva difuzijnih modelej Nulova zgortka ce zgortka 1 1 z vagoyu ta zmishennyam inicializovanimi do nulya Pered navchannyam usi nulovi zgortki dayut nulovij vihid zapobigayuchi bud yakim spotvorennyam viklikanim ControlNet Zhoden shar ne navchayetsya z nulya proces she tochno nalashtovuyetsya zberigayuchi vashu originalnu model u bezpeci Cej metod dozvolyaye trenuvatisya na nevelikih abo navit personalnih pristroyah Vikoristannya ta superechkiStable Diffusion ne pretenduye na zhodni prava na zgenerovani zobrazhennya ta vilno nadaye koristuvacham prava na vikoristannya bud yakih zgenerovanih zobrazhen iz modeli za umovi sho vmist zobrazhennya ne ye nezakonnim abo shkidlivim dlya okremih osib Svoboda yaka nadayetsya koristuvacham shodo vikoristannya zobrazhen sprichinila superechki shodo etiki vlasnosti oskilki Stable Diffusion ta inshi generativni modeli navchayutsya iz zahishenih avtorskim pravom zobrazhen bez zgodi vlasnika Oskilki vizualni stili ta kompoziciyi ne pidlyagayut avtorskomu pravu chasto vvazhayetsya sho koristuvachiv Stable Diffusion yaki stvoryuyut zobrazhennya tvoriv mistectva ne slid vvazhati takimi sho porushuyut avtorski prava na vizualno shozhi tvori Odnak osobi zobrazheni na stvorenih zobrazhennyah mozhut buti zahisheni pravami osobistosti yaksho vikoristovuyetsya yihnya shozhist a intelektualna vlasnist taka yak vpiznavani logotipi brendiv vse she zalishayetsya zahishenoyu avtorskim pravom Tim ne mensh hudozhniki vislovlyuyut sturbovanist tim sho shiroke vikoristannya programnogo zabezpechennya dlya sintezu zobrazhen takogo yak Stable Diffusion mozhe vreshti resht prizvesti do togo sho hudozhniki lyudi a takozh fotografi modeli operatori ta aktori postupovo vtratyat komercijnu zhittyezdatnist proti konkurentiv na osnovi ShI Porivnyano z inshimi komercijnimi produktami zasnovanimi na generativnomu shtuchnomu intelekti Stable Diffusion ye znachno bilsh dozvolenim shodo tipiv kontentu yakij mozhut stvoryuvati koristuvachi napriklad zobrazhen nasilstva chi vidverto seksualnogo harakteru Vidpovidayuchi na zanepokoyennya shodo togo sho model mozhe buti vikoristana dlya zlovzhivan generalnij direktor Stability AI Emad Mostake poyasnyuye sho lyudi vidpovidayut za etichni moralni ta zakonni principi vikoristannya ciyeyi tehnologiyi i sho peredacha mozhlivostej Stable Diffusion v ruki gromadskosti prizvede do togo sho tehnologiya zabezpechit chistu vigodu nezvazhayuchi na potencijni negativni naslidki Krim togo Mostak stverdzhuye sho namir vidkritoyi dostupnosti Stable Diffusion polyagaye v tomu shob poklasti kraj korporativnomu kontrolyu ta dominuvannyu nad takimi tehnologiyami yaki ranishe rozroblyali lishe zakriti sistemi ShI dlya sintezu zobrazhen Ce vidobrazhayetsya v tomu fakti sho bud yaki obmezhennya Stability AI na kontent yakij mozhut stvoryuvati koristuvachi mozhna legko obijti zavdyaki dostupnosti vihidnogo kodu U sichni 2023 roku troye hudozhnikiv Sara Andersen Kelli MakKernan i Karla Ortis podali pozov pro porushennya avtorskih prav proti Stability AI Midjourney i DeviantArt stverdzhuyuchi sho ci kompaniyi porushili prava miljoniv hudozhnikiv navchivshi instrumenti ShI na p yat milyardiv zobrazhennya vzyati z Internetu bez zgodi originalnih hudozhnikiv Togo zh misyacya Getty Images takozh podala do sudu na Stability AI za vikoristannya yiyi zobrazhen u navchalnih danih LicenziyaNa vidminu vid takih modelej yak DALL E Stable Diffusion robit vihidnij kod dostupnim razom iz modellyu poperedno pidgotovleni vagi Vin zastosovuye licenziyu Creative ML OpenRAIL M formu licenziyi vidpovidalnogo shtuchnogo intelektu RAIL do modeli M Licenziya zaboronyaye pevni vipadki vikoristannya zokrema zlochini naklepi peresliduvannya doksing ekspluataciyu nepovnolitnih nadannya medichnih porad avtomatichne stvorennya yuridichnih zobov yazan nadannya yuridichnih dokaziv i diskriminaciyu abo zapodiyannya shkodi osobam chi grupam na osnovi socialna povedinka abo osobisti chi osobistisni harakteristiki abo zahisheni zakonom harakteristiki abo kategoriyi Koristuvach volodiye pravami na stvoreni nimi vihidni zobrazhennya ta mozhe vilno vikoristovuvati yih u komercijnih cilyah Div takozhDALL E 2 Midjourney ChatGPT Difuzijna model Zhivopis na osnovi shtuchnogo intelektuPrimitkiAnnouncing SDXL 1 0 stability ai originalu za 26 lipnya 2023 Diffuse The Rest a Hugging Face Space by huggingface huggingface co originalu za 5 veresnya 2022 Procitovano 5 veresnya 2022 Stable Diffusion Repository on GitHub CompVis Machine Vision and Learning Research Group LMU Munich 17 veresnya 2022 Procitovano 17 veresnya 2022 The new killer app Creating AI art will absolutely crush your PC PCWorld originalu za 31 serpnya 2022 Procitovano 31 serpnya 2022 Korn Jennifer 17 sichnya 2023 Getty Images suing the makers of popular AI art tool for allegedly stealing photos CNN angl Procitovano 22 sichnya 2023 Wiggers Kyle 17 zhovtnya 2022 Stability AI the startup behind Stable Diffusion raises 101M Techcrunch angl Procitovano 17 zhovtnya 2022 Alammar Jay The Illustrated Stable Diffusion jalammar github io Procitovano 31 zhovtnya 2022 Baio Andy 30 serpnya 2022 Exploring 12 Million of the 2 3 Billion Images Used to Train Stable Diffusion s Image Generator Waxy org amer Procitovano 2 listopada 2022 This artist is dominating AI generated art And he s not happy about it MIT Technology Review angl Procitovano 2 listopada 2022 Ivanovs Alex 8 veresnya 2022 Stable Diffusion Tutorials Resources and Tools Stack Diary amer Procitovano 2 listopada 2022 Schuhmann Christoph 2 listopada 2022 CLIP MLP Aesthetic Score Predictor procitovano 2 listopada 2022 LAION Aesthetics LAION laion ai angl originalu za 26 serpnya 2022 Procitovano 2 veresnya 2022 Mostaque Emad 28 serpnya 2022 Cost of construction Twitter angl originalu za 6 veresnya 2022 Procitovano 6 veresnya 2022 CompVis stable diffusion v1 4 Hugging Face huggingface co Procitovano 2 listopada 2022 Wiggers Kyle 12 serpnya 2022 A startup wants to democratize the tech behind DALL E 2 consequences be damned TechCrunch amer Procitovano 2 listopada 2022 Seth Forsgren Hayk Martiros Riffusion Stable diffusion for real time music generation Riffusion originalu za 16 grudnya 2022 Mercurio Anthony 31 zhovtnya 2022 Waifu Diffusion procitovano 31 zhovtnya 2022 Smith Ryan NVIDIA Quietly Launches GeForce RTX 3080 12GB More VRAM More Power More Money www anandtech com Procitovano 31 zhovtnya 2022 Dave James 28 zhovtnya 2022 I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann PC Gamer originalu za 9 listopada 2022 NovelAI Improvements on Stable Diffusion NovelAI 11 zhovtnya 2022 Arhiv originalu za 27 zhovtnya 2022 Yuki Yamashita 1 veresnya 2022 愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発 ITmedia Inc yap originalu za 31 serpnya 2022 Stable Diffusion web UI GitHub 10 listopada 2022 Stable Diffusion with Diffusers huggingface co Procitovano 31 zhovtnya 2022 invisible watermark Shield Mountain 2 listopada 2022 procitovano 2 listopada 2022 stable diffusion tools emphasis at master JohannesGaessler stable diffusion tools GitHub angl Procitovano 2 listopada 2022 Zapovnit propusheni parametri nazvu i abo avtoriv arXiv 1 Buhlmann Matthias 28 veresnya 2022 Stable Diffusion Based Image Compression Medium angl Procitovano 2 listopada 2022 Stable Diffusion 2 0 Release stability ai originalu za 10 grudnya 2022 Zhang Lvmin 10 lyutogo 2023 Adding Conditional Control to Text to Image Diffusion Models Procitovano 10 lyutogo 2023 Cai Kenrick Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To 1 Billion Forbes angl Procitovano 31 zhovtnya 2022 高性能画像生成AI Stable Diffusion 無料リリース kawaii までも理解し創造する画像生成AI Automaton Media yap 24 serpnya 2022 Ryo Shimizu 26 serpnya 2022 Midjourneyを超えた 無料の作画AI StableDiffusion が AIを民主化した と断言できる理由 Business Insider Japan yap James Vincent AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit The Verge 16 January 2023 Stable Diffusion Public Release Stability Ai originalu za 30 serpnya 2022 Procitovano 31 serpnya 2022 From RAIL to Open RAIL Topologies of RAIL Licenses Responsible AI Licenses RAIL amer Procitovano 20 lyutogo 2023 Ready or not mass video deepfakes are coming The Washington Post 30 serpnya 2022 originalu za 31 serpnya 2022 Procitovano 31 serpnya 2022 License a Hugging Face Space by CompVis huggingface co originalu za 4 veresnya 2022 Procitovano 5 veresnya 2022 Katsuo Ishida 26 serpnya 2022 言葉で指示した画像を凄いAIが描き出す Stable Diffusion 画像は商用利用も可能 Impress Corporation yap PosilannyaDemo Stable Diffusion Interaktivne poyasnennya Stable Diffusion