Qwen-Image¶

Qwen-Image — модель для генерации изображений из текстового описания, разработанная командой Qwen и выпущенная в августе 2024 года.

Qwen-Image-Edit — специализированная модель для редактирования существующих изображений на основе текстовых инструкций, выпущена с небольшой задержкой после Qwen-Image.

Обе модели представляют собой 20-миллиардные MMDiT (Multi-modal Diffusion Transformer) и отличаются продвинутым пониманием промпта и возможностью генерации текста внутри изображений.

В качестве текстовых инструкций модели поддерживают несколько языков, включая русский.

Официальные ссылки¶

Варианты квантования¶

Оригинальные модели Qwen-Image слишком большие для потребительских видеокарт - они требуют более 40 GB видеопамяти.

По этой причине используются используются кванты - сжатые версии моделей, которые позволяют запускать их на обычных GPU с разумными компромиссами по качеству и скорости.

FP8 кванты¶

FP8 - это современный формат представления чисел с плавающей запятой, который позволяет запускать нейронные сети с минимальными потерями качества.

Эти кванты официально поддерживаются в ComfyUI и не требуют установки каких-либо дополнительных нод/пакетов.

Установка fp8 квантов Qwen Image / Qwen Image Edit (проскроллить вниз):
https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/

Особенности

✅ Работает без установки дополнительных нод
✅ Поддержка внешних LoRA
✅ Дополнительное ускорение на 40 и 50 поколениях видеокарт благодаря аппаратной поддержке fp8
❌ Для работы без выгрузки слоёв требуются карта с 24 GB VRAM или выше

GGUF кванты¶

GGUF - это формат для сжатия нейронных сетей, который позволяет запускать большие модели на относительно слабых видеокартах.

Идея в том, что модель сжимается с небольшой потерей качества, но зато требует гораздо меньше видеопамяти. Это позволяет запускать Qwen-Image на картах с 12-16 GB VRAM вместо требуемых 24+ GB для fp8.

Особенности

✅ Работают на картах с низким числом VRAM ценой деградации качества
✅ Поддержка внешних LoRA
❌ Более медленные на 40/50 поколениях карт в сравнении с fp8

Какой GGUF-квант выбрать?

Ориентируйтесь на эту таблицу, чтобы понять, какой квант влезет в вашу видеокарту:

Nunchaku FP4/INT4¶

Nunchaku - это высокопроизводительный движок для инференса 4-битных нейронных сетей, который обеспечивает значительное ускорение и снижение потребления памяти для диффузионных моделей.

Он оптимизирует диффузионные модели с помощью техники SVDQuant, сжимая их в 3.6 раза по памяти и ускоряя работу в 2-4 раза.

Варианты с fp4-квантами будут особенно интересны владельцам 50 поколения видеокарт, поскольку данные карты обладают аппаратной поддержкой fp4, благодаря чему скорость будет ещё выше.

Qwen-Image (Nunchaku)
Qwen-Image-Edit (Nunchaku)
Ноды ComfyUI для поддержки Nunchaku-квантов
Дополнительный pip-пакет для поддержки Nunchaku-квантов в ComfyUI
(без него кастомные ноды работать не будут)

Особенности

✅ Более агрессивное квантование для экономии VRAM
✅ Значительно выше скорость генерации, особенно на картах 50 поколения
✅ Готовые варианты со встроенными Lightning LoRA (смотри ниже)
❌ Нет поддержки внешних LoRA (планируется добавить)
❌ Требует специальной установки в окружение ComfyUI

Lightning LoRA¶

Lightning LoRA - это "ускорялки" для Qwen-Image, которые позволяют генерировать картинки в несколько раз быстрее ценой небольшой потери качества.

Работают за счёт сокращения количества шагов диффузии: вместо стандартных 20 шагов достаточно выставить всего 4 или 8 шагов.

Потери качества могут быть заметны на сложных сценах и в мелких деталях (волосы, текст и т.п.), но для большинства задач результат слабо уступает оригиналу.

Доступные варианты:

4 шага: быстрее, но ниже качество
8 шагов: медленнее, но выше качество

Совместимость Lightning LoRA с квантами

FP8 и GGUF: подключаются как обычные LoRA в ComfyUI

Nunchaku: внешние LoRA работать не будут, качайте версии чекпоинтов с вшитыми лорами (в названии должно быть lightning)

Тренировка¶

Поскольку диффузионная часть модели содержит 20 миллиардов параметров, тренировка LoRA даже на картах с 24 GB VRAM возможна только при загрузке базовой модели в fp8 точности.

Тулзы для тренировки:

musubi-tuner - трейнер от kohya-ss
ai-toolkit - трейнер от ostris
flymyai-lora-trainer - специализированный трейнер для Qwen-Image

Прочее:

Accuracy Recovery Adapters (ARA) - экспериментальная технология от ostris для компенсации потерь точности при квантовании. Позволяет тренировать LoRA на 24 GB GPU (RTX 3090/4090) на 1Мп изображениях
Обсуждение тренировки на 24 GB VRAM с помощью ARA на Reddit