Перейти к содержанию

Qwen-Image

Qwen-Image — модель для генерации изображений из текстового описания, разработанная командой Qwen и выпущенная в августе 2024 года.

Qwen-Image-Edit — специализированная модель для редактирования существующих изображений на основе текстовых инструкций, выпущена с небольшой задержкой после Qwen-Image.

Обе модели представляют собой 20-миллиардные MMDiT (Multi-modal Diffusion Transformer) и отличаются продвинутым пониманием промпта и возможностью генерации текста внутри изображений.

В качестве текстовых инструкций модели поддерживают несколько языков, включая русский.

Официальные ссылки

Варианты квантования

Оригинальные модели Qwen-Image слишком большие для потребительских видеокарт - они требуют более 40 GB видеопамяти.

По этой причине используются используются кванты - сжатые версии моделей, которые позволяют запускать их на обычных GPU с разумными компромиссами по качеству и скорости.

FP8 кванты

FP8 - это современный формат представления чисел с плавающей запятой, который позволяет запускать нейронные сети с минимальными потерями качества.

Эти кванты официально поддерживаются в ComfyUI и не требуют установки каких-либо дополнительных нод/пакетов.

Установка fp8 квантов Qwen Image / Qwen Image Edit (проскроллить вниз):
https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/

Особенности

  • ✅ Работает без установки дополнительных нод
  • ✅ Поддержка внешних LoRA
  • ✅ Дополнительное ускорение на 40 и 50 поколениях видеокарт благодаря аппаратной поддержке fp8
  • ❌ Для работы без выгрузки слоёв требуются карта с 24 GB VRAM или выше

GGUF кванты

GGUF - это формат для сжатия нейронных сетей, который позволяет запускать большие модели на относительно слабых видеокартах.

Идея в том, что модель сжимается с небольшой потерей качества, но зато требует гораздо меньше видеопамяти. Это позволяет запускать Qwen-Image на картах с 12-16 GB VRAM вместо требуемых 24+ GB для fp8.

Особенности

  • ✅ Работают на картах с низким числом VRAM ценой деградации качества
  • ✅ Поддержка внешних LoRA
  • ❌ Более медленные на 40/50 поколениях карт в сравнении с fp8

Какой GGUF-квант выбрать?

Ориентируйтесь на эту таблицу, чтобы понять, какой квант влезет в вашу видеокарту:

Nunchaku FP4/INT4

Nunchaku - это высокопроизводительный движок для инференса 4-битных нейронных сетей, который обеспечивает значительное ускорение и снижение потребления памяти для диффузионных моделей.

Он оптимизирует диффузионные модели с помощью техники SVDQuant, сжимая их в 3.6 раза по памяти и ускоряя работу в 2-4 раза.

Варианты с fp4-квантами будут особенно интересны владельцам 50 поколения видеокарт, поскольку данные карты обладают аппаратной поддержкой fp4, благодаря чему скорость будет ещё выше.

Особенности

  • ✅ Более агрессивное квантование для экономии VRAM
  • ✅ Значительно выше скорость генерации, особенно на картах 50 поколения
  • ✅ Готовые варианты со встроенными Lightning LoRA (смотри ниже)
  • ❌ Нет поддержки внешних LoRA (планируется добавить)
  • ❌ Требует специальной установки в окружение ComfyUI

Lightning LoRA

Lightning LoRA - это "ускорялки" для Qwen-Image, которые позволяют генерировать картинки в несколько раз быстрее ценой небольшой потери качества.

Работают за счёт сокращения количества шагов диффузии: вместо стандартных 20 шагов достаточно выставить всего 4 или 8 шагов.

Потери качества могут быть заметны на сложных сценах и в мелких деталях (волосы, текст и т.п.), но для большинства задач результат слабо уступает оригиналу.

Доступные варианты:

  • 4 шага: быстрее, но ниже качество
  • 8 шагов: медленнее, но выше качество

Совместимость Lightning LoRA с квантами

FP8 и GGUF: подключаются как обычные LoRA в ComfyUI

Nunchaku: внешние LoRA работать не будут, качайте версии чекпоинтов с вшитыми лорами (в названии должно быть lightning)

Тренировка

Поскольку диффузионная часть модели содержит 20 миллиардов параметров, тренировка LoRA даже на картах с 24 GB VRAM возможна только при загрузке базовой модели в fp8 точности.

Тулзы для тренировки:

Прочее: