Интерфейсы
В этой статье рассматриваются интерфейсы, наиболее подходящие для работы с популярными диффузионными моделями (такими как Stable Diffusion 1, Stable Diffusion XL и FLUX).
FAQ¶
Какой интерфейс выбрать?
В большинстве случаев, наилучшим выбором будет один из форков AUTO1111 в лице Forge или reForge.
Если вы предпочитаете гибкую настройку и хотите иметь возможность делать сложные манипуляции, не предусмотренные возможностями AUTO1111, стоит обратить внимание на ComfyUI.
flowchart TD
%% Nodes
Q1["Что важнее: лёгкость в освоении или гибкость и количество фич?"]:::question
Q2["Нужна ли поддержка FLUX?"]:::question
ComfyUI["ComfyUI"]:::answer
Forge["Forge"]:::answer
reForge["reForge"]:::answer
%% Flow
Q1 -- "Гибкость и количество фич" --> ComfyUI
Q1 -- "Лёгкость в освоении" --> Q2
Q2 -- "Да" --> Forge
Q2 -- "Нет" --> reForge
%% Styling
classDef question fill:#B2DFDB,stroke:#00897B,stroke-width:2px,color:black;
classDef answer fill:#FFF9C4,stroke:#FBC02D,stroke-width:2px,color:#4051b5;
%% Clickable links
click ComfyUI "https://github.com/comfyanonymous/ComfyUI"
click Forge "https://github.com/lllyasviel/stable-diffusion-webui-forge"
click reForge "https://github.com/Panchovix/stable-diffusion-webui-reForge"
AUTO1111 vs ComfyUI
AUTO1111 и его форки не требуют каких-либо сложных настроек или длительного процесса освоения. Однако, при длительном использовании, вы можете посчитать его недостаточно гибким в отдельных моментах.
ComfyUI более гибкий и он позоволяет чётко контролировать последовательность шагов в процессе генерации изображений, однако у него выше порог входа и он имеет ряд особенностей ("недостатков") из-за чего многие предпочитают работать с AUTO1111:
- Многие доступные "из коробки" в автоматике вещи делаются в ComfyUI неудобно, например смена настроек в комплесных воркфлоу или работа с несколькими ControlNet-моделями.
- В отдельных случаях, вам придётся переизобретать то, что в автоматике есть по умолчанию или в виде готовых плагинов, например процесс автоматической детализации лиц, осуществляемой в AUTO1111 плагином ADetailer.
- Затруднён процесс обмена метаданными для изображений. Если вам предоставили метаданные для генерации конкретной картинки на AUTO1111, то, в худшем случае, вам нужно будет докачать нужную модель и LoRA-файлы; в то время как для ComfyUI вам, возможно, придётся дополнительно скачать необходимые кастомные ноды, а они не всегда есть в менеджере кастомных нод комфи, поэтому их придётся искать в гугле.
Срачи на тему "AUTO1111 vs ComfyUI" являются дисциплиной специальной олимпиады в нейротредах, поскольку эти интерфейсы реализуют абсолютно два разных подхода к процессу работы с диффузионными моделями.
Рекомендую обратить внимание на ComfyUI в том случае, если вы уже знакомы с нодовыми редакторами (например Blueprints в Unreal Engine), либо же если вы фанат Factorio, Arch Linux и получаете кайф от самого процесса настройки, экспериментов и сборки различных решений "под себя".
Какие интерфейсы работают с FLUX?
Работает с FLUX ✅ | Не работает с FLUX ❌ |
---|---|
SD.Next | Stable Diffusion web UI |
Forge | reForge |
ComfyUI | Forge Classic |
SwarmUI | Fooocus |
InvokeAI |
Chroma, хоть и является файнтьюном FLUX.1-schnell, обладает несколькими изменениями архтитектуры, в связи с чем работать она будет только на ComfyUI и SwarmUI.
Какие интерфейсы работают с видео-моделями (Hunyuan Video, Wan 2.1)?
Работает с Hunyuan Video ✅ | Работает с Wan 2.1 ✅ |
---|---|
ComfyUI | ComfyUI |
SwarmUI | SwarmUI |
Stability Matrix |
Какие интерфейсы работают с несколькими видеокартами?
SwarmUI позволяет запускать генерации в несколько потоков, используя несколько GPU/машин.
AUTOMATIC1111 и его форки¶
- Вики AUTOMATIC1111 - большая часть сведений актуальна для всех форков
- Полезные расширения - в отдельных форках часть из расширений встроена
- sd-forge-couple - наиболее мощное расширение для регионального промптинга
Stable Diffusion web UI¶
Stable Diffusion web UI за авторством AUTOMATIC1111 был первым (август 2022) из популярных интерфейсов для картинко-генеративных нейросетей. Долгое время он оставался лидером в своей сфере, не имея каких-либо аналогов.
Stable Diffusion web UI == AUTOMATIC1111
Поскольку название "Stable Diffusion web UI" звучит слишком длинно и обобщённо (для Stable Diffusion есть много разных WebUI), в различных дискуссиях под "автоматиком" часто подразумевают сам интерфейс, а не его автора.
Не используйте ветку master
Основная ветка master
не обновлялась уже почти год - в ней нет поддержки V-pred моделей и отсутствуют различные оптимизации.
Если вы хотите использовать именно Stable Diffusion web UI, а не какой-либо из его форков, то переключитесь на ветку dev
.
Позднее, Stable Diffusion web UI обзавёлся несколькими форками, которые пытались улучшать определённые аспекты оригинала. Краткая информация о наиболее популярных форках предоставлена ниже.
Схема наследования
flowchart TD
%% Nodes
AUTO1111 --> SD.Next
AUTO1111 --> Forge
Forge --> reForge
Forge --> ForgeClassic["Forge Classic"]
%% Clickable links
click AUTO1111 "https://github.com/AUTOMATIC1111/stable-diffusion-webui"
click SD.Next "https://github.com/vladmandic/sdnext"
click Forge "https://github.com/lllyasviel/stable-diffusion-webui-forge"
click reForge "https://github.com/Panchovix/stable-diffusion-webui-reForge"
click ForgeClassic "https://github.com/Haoming02/sd-webui-forge-classic"
%% Styling
classDef link fill:#FFF9C4,stroke:#FBC02D,stroke-width:2px,color:#4051b5;
class AUTO1111,SD.Next,Forge,reForge,ForgeClassic link;
Все форки AUTO1111 имеют схожий со своим предком интерфейс. По большей части, разница между ними заключается в различных внутренних оптимизациях, поддержке различных моделей и стандартной комплектации плагинов.
Единственная значительная переработка интерфейса была выполнена в SD.Next. Что касается остальных форков - вы можете менять их один на другой без каких-либо затрат времени на повторное освоение, поскольку интерфейс в них почти идентичен.
Проект | Дата появления | Особенности | Статус проекта |
---|---|---|---|
Stable Diffusion web UI | август 2022 | Неповторимый оригинал от AUTOMATIC1111 | 💤 Не обновляется |
SD.Next | март 2023 | Есть поддержка FLUX, сильно переделан интерфейс | ✅ Активен |
Forge | январь 2024 | Есть поддержка FLUX | ✅ Активен |
reForge | июль 2024 | Больше всего семплеров | ❄️ Заморожен |
Forge Classic | август 2024 | Большое число оптимизаций, убраны legacy-фичи | ✅ Активен |
SD.Next¶
В Stable Diffusion web UI долго откладывали обновления библиотек для нейросетей, которые повышали производительность на последних линейках видеокарт.
По этой причине появился и взлетел форк автоматика от vladmandic (март 2023), который позднее получил название SD.Next.
Forge¶
Об авторе Forge
lllyasviel (настоящее имя - Lvmin Zhang) известен как соавтор архитектуры ControlNet, автор первых ControlNet-моделей для Stable Diffusion 1.5, и автор различных экспериментальных решений для диффузионных моделей.
Кроме форка автоматика в лице Forge, за его авторством числится написанный им самостоятельно альтернативный интерфейс для диффузионных моделей под названием Fooocus.
Из-за медленного внедрения новых версий либ и фич, в какой-то момент у автоматика появился ещё один форк в лице Forge (январь 2024) от lllyasviel. Данный интерфейс быстро набрал популярность за счёт более высокой скорости и прочих улучшений.
В июне 2024 автор Forge заявил, что он планирует переписать внутреннюю реализацию Forge, из-за чего поломается большая часть существующих плагинов.
Новую роль Forge он задал как "экспериментальный проект для тестирования новых функций", а большей части существующих пользователей он посоветовал вернуться на оригинальный AUTO1111.
reForge¶
Как результат действий автора Forge, в июле 2024 у Forge появился форк от Panchovix, который позднее получил название reForge. Целью данного форка являлось сделать "стабильную" версию Forge, которая не будет ломать обратную совместимость со старыми наработками.
В апреле 2025 Panchovix заявил, что работа над reForge прекращена, поскольку он зарылся в IRL и у него нет времени заниматься этим проектом.
В качестве альтернативы, он посоветовал пользователям переключиться на Forge Classic либо на Forge.
Forge Classic¶
В августе 2024 у Forge появился ещё один форк от Haoming02. Данный форк получил название Forge Classic.
Цель такая же как и reForge - сделать "стабильную" версию Forge, которая не будет ломать обратную совместимость со старыми наработками.
ComfyUI¶
- Github
- Примеры готовых workflow
- Англоязычный гайд от автора ComfyUI в виде визуальный новеллы
- Русскоязычный гайд
- ComfyUI-Manager - менеджер кастомных нод, must have для всех пользователей ComfyUI
- krita-ai-diffusion - интеграция с Krita, позволяет использовать ваши workflows в ней напрямую (см. видео). Любые параметры можно выносить в интерфейс самой Krita
ComfyUI - это интерфейс, заточенный на построение собственных workflow посредством организации конвейеров через редактирование нод с различными действиями и указанием связей между ними.
Считается самым сложным в освоении, но обладает наибольшим числом возможностей, быстрее всех внедряет новые фичи и обладает самой богатой экосистемой плагинов (в виде огромного количества кастомных нод на все случаи жизни).
Кастомные ноды, в отличии от плагинов для AUTO1111, очень легко пишутся, ведь по сути, каждая нода - это просто чистая функция на питоне. Благодаря этому, существует огромное количество экспериментальных алгоритмов и вспомогательных модулей, которые доступны исключительно на ComfyUI.
Fooocus¶
Fooocus - это интерфейс, ориентированный на лёгкость в освоении и использовании.
Главная идея данного интерфейса - скрытие всех технических настроек от пользователя, оставив ему возможность выбирать один из "пресетов", позитивный промпт, размер картинки и "стиль" из заранее заданной коллекции.
Каждый пресет представляет из себя json-файл с информацией о модели, лорах, CFG, семплинге и выбранных по умолчанию стилей:
Каждый стиль представляет из себя заранее заданую комбинацию имени и позитивного + негативного промпта:
Fooocus ориентирован на казуального пользователя - он предполагает, что вы не будете вручную настраивать параметры генерации и теги качества. По этой причине, для задания своих пресетов и стилей в Fooocus не предусмотрено каких-либо инструментов.
Проект устарел и не поддерживается
Существующие пресеты не описывают Illustrious-XL её производные - вам придётся добавлять пресеты самостоятельно. Из аниме-моделей Fooocus предоставляет пресеты только для Pony Diffusion V6 XL и anima_pencil-XL.
Разработка проекта заморожена. Проект не будет получать каких-либо обновлений кроме исправления багов.
SwarmUI¶
SwarmUI - это фронтенд-оболочка, работающая поверх ComfyUI и AUTO1111.
Название Swarm (рой), является отсылкой к изначальной ключевой функции данного интерфейса: использование «роя» графических процессоров для генерации изображений в несколько потоков.
Инструкцию по генерации на нескольких GPU/машинах можно найти в документации.
Кроме этого, SwarmUI предоставляет возможность организовывать удалённый доступ к системе сразу нескольким пользователям, используя гибкую систему прав.
SwarmUI позволяет запускать ComfyUI в одной из своих вкладок: в этом случае, вы сможете просматривать, менять и запускать все свои существующие workflow внутри SwarmUI.
На экране редактирования воркфлоу, SwarmUI предоставляет возможность "импортировать" текущий воркфлоу на панель Generate, что перенесёт ваш воркфлоу в обычную форму, вынеся на левую панель все доступные для редактирования в комфи параметры, сгруппированные по нодам.
SwarmUI пытается автоматически определить в вашем воркфлоу поля, отвечающие за позитивный/негативный промпт и выносит их на нижнюю панель.
Для комплексных воркфлоу может быть удобен функционал фильтров, который позволяет искать параметры по имени:
InvokeAI¶
InvokeAI - это коммерческий продукт от компании Invoke, пытающийся совместить в себе удобство классического AUTO1111 и гибкость ComfyUI.
Обладает приятным интерфейсом - он сделан качественно, и в целом видна работа UI/UX-дизайнера.
Данный UI существует в двух версиях:
- Community - бесплатная open source версия под лицензией Apache 2.0 (разрешает коммерческое использование)
- Professional - платная версия, отличается исключительно интеграцией с облачными сервисами Invoke (запуск чекпоинтов удалённо, возможность совместной работы над одними и теми же workflows)
InvokeAI может работать в нескольких режимах, которые, по отдельности, очень похожи на классическую форму AUTO111, и на нодовый интерфейс по типу ComfyUI.
Главной киллер-фичей InvokeAI является возможность организовывать свой UI поверх нодовых workflow, вынося в интерфейс только те параметры, которые вы реально планируете настраивать во время работы.
Этот функционал сделал качественно и удобно, гифку с примером можно увидеть ниже:
В результате, вы можете строить комплексные воркфлоу, используя систему нод по типу ComfyUI, но, при этом, вы можете скрыть всю лапшу за простой формой с парой полей, которые вы хотели бы настраивать.
InvokeAI vs ComfyUI
Несмотря на все преимущества в плане удобства перед ComfyUI, у InvokeAI есть ряд недостатков, которые ставят его в невыгодное положение:
- Ноды от ComfyUI несовместимы с InvokeAI
- Число кастомных нод для InvokeAI на порядок ниже, чем на ComfyUI - никакой генерации видео, никаких кастомных семплеров и множества других полезных вещей
В связи с этим, практические возможности InvokeAI сильно скромнее по сравнению с ComfyUI.
Stability Matrix¶
Stability Matrix - это менеджер пакетов для Stable Diffusion.
Данная программная оболочка позволяет удобно скачивать и запускать различные интерфейсы (Forge, Comfy и т.д.), пакеты для обучения LoRA (kohya_ss, OneTrainer), чекпоинты и workflows для ComfyUI.
Stability Matrix расшаривает установленные модели для всех UI, так что вам не придётся копипастить чекпоинты или возиться с symlink'ами, если вы хотите использовать сразу несколько интерфейсов и расшарить модели между ними.
Кроме этого, Stability Matrix обладает своим интерфейсом для генерации изображений, который работает поверх комфи:
Stability Matrix позволяет редактировать workflow через удобный GUI, предоставляя возможность добавлять последовательные шаги (Hires. fix, Upscale, ADetailer) с тонкой конфигурацией каждого шага и возможностью навешивать на них дополнительные модули, такие как ControlNet.
Прочие особенности встроенного интерфейса для генерации:
- Доступны режимы txt2img, img2img (включая inpaint), txt2vid и img2vid (из видео-моделей поддерживаются только Wan и SVD)
- Есть поддержка нескольких табов, каждому из которых можно задать индивидуальные настройки и затем сохранять/загружать эти табы из файлов. На каждый таб создаётся отдельный файл с настройками, что может быть не очень удобно
- Тип табов может дублироваться - например, вы можете создать несколько img2img табов для апскейла с разными параметрами
- Сгенерированные изображения будут иметь метадату, совместимую с AUTO1111 + ComfyUI