Перейти к содержанию

Интерфейсы

В этой статье рассматриваются интерфейсы, наиболее подходящие для работы с популярными диффузионными моделями (такими как Stable Diffusion 1, Stable Diffusion XL и FLUX).

FAQ

Какой интерфейс выбрать?
В большинстве случаев, наилучшим выбором будет один из форков AUTO1111 в лице Forge или reForge.

Если вы предпочитаете гибкую настройку и хотите иметь возможность делать сложные манипуляции, не предусмотренные возможностями AUTO1111, стоит обратить внимание на ComfyUI.

flowchart TD

%% Nodes
Q1["Что важнее: лёгкость в освоении или гибкость и количество фич?"]:::question
Q2["Нужна ли поддержка FLUX?"]:::question
ComfyUI["ComfyUI"]:::answer
Forge["Forge"]:::answer
reForge["reForge"]:::answer

%% Flow
Q1 -- "Гибкость и количество фич" --> ComfyUI
Q1 -- "Лёгкость в освоении" --> Q2
Q2 -- "Да" --> Forge
Q2 -- "Нет" --> reForge

%% Styling
classDef question fill:#B2DFDB,stroke:#00897B,stroke-width:2px,color:black;
classDef answer fill:#FFF9C4,stroke:#FBC02D,stroke-width:2px,color:#4051b5;

%% Clickable links
click ComfyUI "https://github.com/comfyanonymous/ComfyUI"
click Forge "https://github.com/lllyasviel/stable-diffusion-webui-forge"
click reForge "https://github.com/Panchovix/stable-diffusion-webui-reForge"
AUTO1111 vs ComfyUI

AUTO1111 и его форки не требуют каких-либо сложных настроек или длительного процесса освоения. Однако, при длительном использовании, вы можете посчитать его недостаточно гибким в отдельных моментах.

ComfyUI более гибкий и он позоволяет чётко контролировать последовательность шагов в процессе генерации изображений, однако у него выше порог входа и он имеет ряд особенностей ("недостатков") из-за чего многие предпочитают работать с AUTO1111:

  1. Многие доступные "из коробки" в автоматике вещи делаются в ComfyUI неудобно, например смена настроек в комплесных воркфлоу или работа с несколькими ControlNet-моделями.
  2. В отдельных случаях, вам придётся переизобретать то, что в автоматике есть по умолчанию или в виде готовых плагинов, например процесс автоматической детализации лиц, осуществляемой в AUTO1111 плагином ADetailer.
  3. Затруднён процесс обмена метаданными для изображений. Если вам предоставили метаданные для генерации конкретной картинки на AUTO1111, то, в худшем случае, вам нужно будет докачать нужную модель и LoRA-файлы; в то время как для ComfyUI вам, возможно, придётся дополнительно скачать необходимые кастомные ноды, а они не всегда есть в менеджере кастомных нод комфи, поэтому их придётся искать в гугле.

Срачи на тему "AUTO1111 vs ComfyUI" являются дисциплиной специальной олимпиады в нейротредах, поскольку эти интерфейсы реализуют абсолютно два разных подхода к процессу работы с диффузионными моделями.

Рекомендую обратить внимание на ComfyUI в том случае, если вы уже знакомы с нодовыми редакторами (например Blueprints в Unreal Engine), либо же если вы фанат Factorio, Arch Linux и получаете кайф от самого процесса настройки, экспериментов и сборки различных решений "под себя".

Какие интерфейсы работают с FLUX?

Работает с FLUX ✅ Не работает с FLUX ❌
SD.Next Stable Diffusion web UI
Forge reForge
ComfyUI Forge Classic
SwarmUI Fooocus
InvokeAI

Chroma, хоть и является файнтьюном FLUX.1-schnell, обладает несколькими изменениями архтитектуры, в связи с чем работать она будет только на ComfyUI и SwarmUI.

Какие интерфейсы работают с видео-моделями (Hunyuan Video, Wan 2.1)?

Работает с Hunyuan Video ✅ Работает с Wan 2.1 ✅
ComfyUI ComfyUI
SwarmUI SwarmUI
Stability Matrix

Какие интерфейсы работают с несколькими видеокартами?
SwarmUI позволяет запускать генерации в несколько потоков, используя несколько GPU/машин.

AUTOMATIC1111 и его форки

  • Вики AUTOMATIC1111 - большая часть сведений актуальна для всех форков
  • Полезные расширения - в отдельных форках часть из расширений встроена
  • sd-forge-couple - наиболее мощное расширение для регионального промптинга

Слева направо: Stable Diffusion web UI, SD.Next, reForge

Stable Diffusion web UI

Stable Diffusion web UI за авторством AUTOMATIC1111 был первым (август 2022) из популярных интерфейсов для картинко-генеративных нейросетей. Долгое время он оставался лидером в своей сфере, не имея каких-либо аналогов.

Stable Diffusion web UI == AUTOMATIC1111

Поскольку название "Stable Diffusion web UI" звучит слишком длинно и обобщённо (для Stable Diffusion есть много разных WebUI), в различных дискуссиях под "автоматиком" часто подразумевают сам интерфейс, а не его автора.

Не используйте ветку master

Основная ветка master не обновлялась уже почти год - в ней нет поддержки V-pred моделей и отсутствуют различные оптимизации.

Если вы хотите использовать именно Stable Diffusion web UI, а не какой-либо из его форков, то переключитесь на ветку dev.

Позднее, Stable Diffusion web UI обзавёлся несколькими форками, которые пытались улучшать определённые аспекты оригинала. Краткая информация о наиболее популярных форках предоставлена ниже.

Схема наследования

flowchart TD

%% Nodes
AUTO1111 --> SD.Next
AUTO1111 --> Forge
Forge --> reForge
Forge --> ForgeClassic["Forge Classic"]

%% Clickable links
click AUTO1111 "https://github.com/AUTOMATIC1111/stable-diffusion-webui"
click SD.Next "https://github.com/vladmandic/sdnext"
click Forge "https://github.com/lllyasviel/stable-diffusion-webui-forge"
click reForge "https://github.com/Panchovix/stable-diffusion-webui-reForge"
click ForgeClassic "https://github.com/Haoming02/sd-webui-forge-classic"

%% Styling
classDef link fill:#FFF9C4,stroke:#FBC02D,stroke-width:2px,color:#4051b5;
class AUTO1111,SD.Next,Forge,reForge,ForgeClassic link;

Все форки AUTO1111 имеют схожий со своим предком интерфейс. По большей части, разница между ними заключается в различных внутренних оптимизациях, поддержке различных моделей и стандартной комплектации плагинов.

Единственная значительная переработка интерфейса была выполнена в SD.Next. Что касается остальных форков - вы можете менять их один на другой без каких-либо затрат времени на повторное освоение, поскольку интерфейс в них почти идентичен.

Проект Дата появления Особенности Статус проекта
Stable Diffusion web UI август 2022 Неповторимый оригинал от AUTOMATIC1111 💤 Не обновляется
SD.Next март 2023 Есть поддержка FLUX, сильно переделан интерфейс ✅ Активен
Forge январь 2024 Есть поддержка FLUX ✅ Активен
reForge июль 2024 Больше всего семплеров ❄️ Заморожен
Forge Classic август 2024 Большое число оптимизаций, убраны legacy-фичи ✅ Активен

SD.Next

В Stable Diffusion web UI долго откладывали обновления библиотек для нейросетей, которые повышали производительность на последних линейках видеокарт.

По этой причине появился и взлетел форк автоматика от vladmandic (март 2023), который позднее получил название SD.Next.

Forge

Об авторе Forge

lllyasviel (настоящее имя - Lvmin Zhang) известен как соавтор архитектуры ControlNet, автор первых ControlNet-моделей для Stable Diffusion 1.5, и автор различных экспериментальных решений для диффузионных моделей.

Кроме форка автоматика в лице Forge, за его авторством числится написанный им самостоятельно альтернативный интерфейс для диффузионных моделей под названием Fooocus.

Из-за медленного внедрения новых версий либ и фич, в какой-то момент у автоматика появился ещё один форк в лице Forge (январь 2024) от lllyasviel. Данный интерфейс быстро набрал популярность за счёт более высокой скорости и прочих улучшений.

В июне 2024 автор Forge заявил, что он планирует переписать внутреннюю реализацию Forge, из-за чего поломается большая часть существующих плагинов.

Новую роль Forge он задал как "экспериментальный проект для тестирования новых функций", а большей части существующих пользователей он посоветовал вернуться на оригинальный AUTO1111.

reForge

Как результат действий автора Forge, в июле 2024 у Forge появился форк от Panchovix, который позднее получил название reForge. Целью данного форка являлось сделать "стабильную" версию Forge, которая не будет ломать обратную совместимость со старыми наработками.

В апреле 2025 Panchovix заявил, что работа над reForge прекращена, поскольку он зарылся в IRL и у него нет времени заниматься этим проектом.

В качестве альтернативы, он посоветовал пользователям переключиться на Forge Classic либо на Forge.

Forge Classic

В августе 2024 у Forge появился ещё один форк от Haoming02. Данный форк получил название Forge Classic.

Цель такая же как и reForge - сделать "стабильную" версию Forge, которая не будет ломать обратную совместимость со старыми наработками.

ComfyUI

ComfyUI - это интерфейс, заточенный на построение собственных workflow посредством организации конвейеров через редактирование нод с различными действиями и указанием связей между ними.

Считается самым сложным в освоении, но обладает наибольшим числом возможностей, быстрее всех внедряет новые фичи и обладает самой богатой экосистемой плагинов (в виде огромного количества кастомных нод на все случаи жизни).

Кастомные ноды, в отличии от плагинов для AUTO1111, очень легко пишутся, ведь по сути, каждая нода - это просто чистая функция на питоне. Благодаря этому, существует огромное количество экспериментальных алгоритмов и вспомогательных модулей, которые доступны исключительно на ComfyUI.

Fooocus

Fooocus - это интерфейс, ориентированный на лёгкость в освоении и использовании.

Главная идея данного интерфейса - скрытие всех технических настроек от пользователя, оставив ему возможность выбирать один из "пресетов", позитивный промпт, размер картинки и "стиль" из заранее заданной коллекции.

Каждый пресет представляет из себя json-файл с информацией о модели, лорах, CFG, семплинге и выбранных по умолчанию стилей:

Каждый стиль представляет из себя заранее заданую комбинацию имени и позитивного + негативного промпта:

Fooocus ориентирован на казуального пользователя - он предполагает, что вы не будете вручную настраивать параметры генерации и теги качества. По этой причине, для задания своих пресетов и стилей в Fooocus не предусмотрено каких-либо инструментов.

Проект устарел и не поддерживается

Существующие пресеты не описывают Illustrious-XL её производные - вам придётся добавлять пресеты самостоятельно. Из аниме-моделей Fooocus предоставляет пресеты только для Pony Diffusion V6 XL и anima_pencil-XL.

Разработка проекта заморожена. Проект не будет получать каких-либо обновлений кроме исправления багов.

SwarmUI

SwarmUI - это фронтенд-оболочка, работающая поверх ComfyUI и AUTO1111.

Название Swarm (рой), является отсылкой к изначальной ключевой функции данного интерфейса: использование «роя» графических процессоров для генерации изображений в несколько потоков.

Инструкцию по генерации на нескольких GPU/машинах можно найти в документации.

Кроме этого, SwarmUI предоставляет возможность организовывать удалённый доступ к системе сразу нескольким пользователям, используя гибкую систему прав.


SwarmUI позволяет запускать ComfyUI в одной из своих вкладок: в этом случае, вы сможете просматривать, менять и запускать все свои существующие workflow внутри SwarmUI.

На экране редактирования воркфлоу, SwarmUI предоставляет возможность "импортировать" текущий воркфлоу на панель Generate, что перенесёт ваш воркфлоу в обычную форму, вынеся на левую панель все доступные для редактирования в комфи параметры, сгруппированные по нодам.

SwarmUI пытается автоматически определить в вашем воркфлоу поля, отвечающие за позитивный/негативный промпт и выносит их на нижнюю панель.

Для комплексных воркфлоу может быть удобен функционал фильтров, который позволяет искать параметры по имени:

InvokeAI

InvokeAI - это коммерческий продукт от компании Invoke, пытающийся совместить в себе удобство классического AUTO1111 и гибкость ComfyUI.

Обладает приятным интерфейсом - он сделан качественно, и в целом видна работа UI/UX-дизайнера.

Данный UI существует в двух версиях:

  • Community - бесплатная open source версия под лицензией Apache 2.0 (разрешает коммерческое использование)
  • Professional - платная версия, отличается исключительно интеграцией с облачными сервисами Invoke (запуск чекпоинтов удалённо, возможность совместной работы над одними и теми же workflows)

InvokeAI может работать в нескольких режимах, которые, по отдельности, очень похожи на классическую форму AUTO111, и на нодовый интерфейс по типу ComfyUI.

Главной киллер-фичей InvokeAI является возможность организовывать свой UI поверх нодовых workflow, вынося в интерфейс только те параметры, которые вы реально планируете настраивать во время работы.

Этот функционал сделал качественно и удобно, гифку с примером можно увидеть ниже:

В результате, вы можете строить комплексные воркфлоу, используя систему нод по типу ComfyUI, но, при этом, вы можете скрыть всю лапшу за простой формой с парой полей, которые вы хотели бы настраивать.

InvokeAI vs ComfyUI

Несмотря на все преимущества в плане удобства перед ComfyUI, у InvokeAI есть ряд недостатков, которые ставят его в невыгодное положение:

  1. Ноды от ComfyUI несовместимы с InvokeAI
  2. Число кастомных нод для InvokeAI на порядок ниже, чем на ComfyUI - никакой генерации видео, никаких кастомных семплеров и множества других полезных вещей

В связи с этим, практические возможности InvokeAI сильно скромнее по сравнению с ComfyUI.

Stability Matrix

Stability Matrix - это менеджер пакетов для Stable Diffusion.

Данная программная оболочка позволяет удобно скачивать и запускать различные интерфейсы (Forge, Comfy и т.д.), пакеты для обучения LoRA (kohya_ss, OneTrainer), чекпоинты и workflows для ComfyUI.

Stability Matrix расшаривает установленные модели для всех UI, так что вам не придётся копипастить чекпоинты или возиться с symlink'ами, если вы хотите использовать сразу несколько интерфейсов и расшарить модели между ними.


Кроме этого, Stability Matrix обладает своим интерфейсом для генерации изображений, который работает поверх комфи:

Stability Matrix позволяет редактировать workflow через удобный GUI, предоставляя возможность добавлять последовательные шаги (Hires. fix, Upscale, ADetailer) с тонкой конфигурацией каждого шага и возможностью навешивать на них дополнительные модули, такие как ControlNet.

Прочие особенности встроенного интерфейса для генерации:

  • Доступны режимы txt2img, img2img (включая inpaint), txt2vid и img2vid (из видео-моделей поддерживаются только Wan и SVD)
  • Есть поддержка нескольких табов, каждому из которых можно задать индивидуальные настройки и затем сохранять/загружать эти табы из файлов. На каждый таб создаётся отдельный файл с настройками, что может быть не очень удобно
  • Тип табов может дублироваться - например, вы можете создать несколько img2img табов для апскейла с разными параметрами
  • Сгенерированные изображения будут иметь метадату, совместимую с AUTO1111 + ComfyUI