Перейти к содержанию

SD/FLUX модели

Виды моделей

Базовые модели

Базовая модель — обученная с нуля модель.

Создание базовых моделей требует колоссальных вычислительных ресурсов. В связи с этим, практически не существует базовых моделей, выпущенных энтузиастами. Пока это, по большей части, удел крупных компаний. Единственным исключением из этого, на осень 2024, является только AuraFlow.

Совместимость

LoRA-модели и ControlNet-модели от одних базовых моделей не подходят к другим базовым моделям.

Разные базовые модели потребляют разное количество VRAM.

Таблица актуальна для NVidia:

Базовая модель Минимальный объём VRAM Рекомендуемый объём VRAM
Stable Diffusion 1 4 GB VRAM 8 GB VRAM
Stable Diffusion XL 8 GB VRAM 12 GB VRAM
FLUX 12 GB VRAM 24 GB VRAM

Finetune

Finetuneдообученная версия базовой модели.

Обучение файньюнов требует умеренных вычислительных ресурсов (в сравнении с созданием базовых моделей), в связи с чем существует большое количество моделей данного вида, созданных различными группами энтузиастов или одиночками.

Примеры файнтьюнов: PonyDiffusion V6 XL, NovelAI V1

Merge

Merge — результат процедуры слияния нескольких моделей, или модели с LoRA-моделями.

Создание мёрджей не требует процедуры обучения и может быть выполнено в короткие сроки на потребительском ПК, в связи с чем мёрджи являются самым многочисленным видом моделей. Мёрджи создаются при помощи таких утилит как sd-webui-supermerger.

Во многих случаях используют окончание *****Mix в названии.

Примеры мёрджей: AutismMix, MeinaMix

Inpaint

Inpaint-модель — модель с дополнительными слоями, натрененированная специально для процесса инпеинта.

Данные модели не подвержены проблеме наличия швов и неконсистентности во время процедур inpaint/outpaint.

Примеры inpaint-моделей: foocus-inpaint

Вариации моделей

Формат файла: ckpt vs safetensors

Рекомендация

При наличии выбора используй safetensors

.ckpt - это старый формат моделей. Кроме весов, он содержит исполняемый код на python, который может быть вредоносным. Сейчас встречается редко.

.safetensors это более новый формат - он не хранит ничего, кроме весов модели.

Точность: FP16 vs FP32

Рекомендация

При наличии выбора используй FP16

Про экспоненциальную форму записи чисел с плавающей запятой

Экспоненциальная форма записи — это представление вещественных чисел в виде двух составляющих:

  • Порядок (англ: exponent) — степень числа
  • Мантисса (англ: mantissa, significand или fractional part) — значащие цифры этого числа

Данная форма записи удобна для представления очень больших и очень малых чисел, а также для унификации их написания.

Примеры:

Обычная запись Экспоненциальная форма
42 +4.2e1
149597000 +1.49597e8
0.00000001 +1e-8
-0.00000123 -1.23e-6

FP16 и FP32 — это форматы хранения чисел с плавающей запятой.

Формат FP32 использует 32 бита для хранения отдельного числа:

Формат FP16, так же называемый половинной точностью (half-precision), использует 16 бит для хранения отдельного числа:

По умолчанию, модели формата FP32 так же загружаются с половинной точностью, поэтому профита от большего размера не будет.


Современные модели, такие как FLUX, используют точность BF16 по умолчанию. Как и в случае FP16, используется 16 бит на одно число, но соотношение используемого количества бит для мантиссы и порядка отличается.

Избыточные связи: full vs pruned

Рекомендация

При наличии выбора используй pruned

В pruned версиях удалены избыточные связи внутри нейронки, благодаря чему она занимает меньше места. В теории, это слегка ухудшает качество модели, на практике разница малозаметна.

Составляющие части модели

Чекпоинт (checkpoint) — файл, хранящий в себе веса какой-либо модели. В случае картинко-генеративных нейростетей, один чекпоинт может включать в себя сразу несколько нейросетей, необходимых для генерации, а именно: U-Net, Text Encoder и VAE.

U-Net

U-Net — это архитектура сверточой нейронной сети, которая была разработанна для сегментации изображений ещё в далёком 2015 году. В случае картинко-генеративных нейросетей - это та часть модели, которая отвечает за пошаговое преобразование шума в изображение.

Text Encoder

Текстовый энкодер (text encoder) — нейросеть, которая извлекает смысл из текстового промпта и преобразует его в числовой вектор. Схожие по смыслу тексты имеют схожие векторы.

Примеры текстовых энкодеров: CLIP, T5.

VAE

VAE (Variational AutoEncoder) — архитектура нейросетей для эффективного сжатия и распаковки данных. В случае картинко-генеративных нейросетей, VAE — это нейронная сеть, которая преобразует RGB-изображение в латентное пространство и обратно.

Подробнее про VAE и латентное пространство смотри здесь.

Популярные модели

FLUX

Flux — серия базовых моделей, выпущенная 1 августа 2024 года компанией Black Forest Labs. Было анонсировано три модели, веса для двух из них были выложены в паблик:

Модель Оригинальные веса Квантованные веса
FLUX.1 [dev] Huggingface Huggingface
FLUX.1 [schnell] Huggingface Huggingface
FLUX.1 [pro] Не опубликованы Не опубликованы

Модели семейства FLUX обладают высокими системными требованиями (от 12 GB VRAM) и лучшим пониманием промптов по сравнению с прошлыми поколениями картинко-генеративных моделей.

Из коробки знает аниме-стилистику, но в плане NSFW не может сгенерировать что-либо сложнее, чем топлес.

Модель вышла относительно недавно и пока отсутствуют какие-либо общепризнанные удачные файнтьюны.

Со списком всех моделей на основе FLUX можно ознакомиться здесь.

Pony Diffusion V6 XL

Совместимость

В связи с тем, что Pony Diffusion V6 XL была сильно пережарена в процессе обучения, на ней очень слабо работают LoRA-модели и ControlNet-модели от её базовой модели в лице Stable Diffusion XL.

На площадках типа civitai.com совместимые с понями лоры выделены в отдельную категорию.

Pony Diffusion V6 XL (также известный как Pony Diffusion или PonyXL) является самым популярным файнтьюном Stable Diffusion XL в 2024 году.

Модель и миксы на её основе хороши в анатомии и NSFW, но, как правило, качество фонов там ниже, чем у других моделей.

Модели на основе PonyDiffusion V6 XL

Модель Примечания
Pony Diffusion V6 XL Неповторимый оригинал от самого преданного фаната франшизы "Мой маленький пони". Ponygods, I kneel!
AutismMix SDXL Один из самых популярных мёрджей на основе PonyDiffusion V6 XL. Данная модель предоставляет хороший базовый стиль и анатомию, но ценой является снижение вариативности генераций. Хороший вариант для начинающего.
4th tail Продвинутый файнтьюн поней со знанием большого количества художников (примеры в картинках) и персонажей из коробки.
T-ponynai3 Ещё один популярный аниме-файнтьюн поней.
Все модели на основе поней На случай, если этого списка вам показалось мало, то по этой ссылке вы сможете найти все чекпоинты на основе поней, тысячи их!

Stable Diffusion XL

Stable Diffusion XL является базовой моделью, выпущенной Stability AI летом 2023 года.

Модели на основе SDXL

Модель Примечания
Pony Diffusion V6 XL Самый популярный файнтьюн SDXL 2024 года. Модель и миксы на её основе хороши в анатомии и NSFW, но, как правило, качество фонов там ниже, чем у других моделей. Список моделей на основе поней смотри выше.
NoobAI-XL Популярный файнтьюн Illustrious-XL. Эта модель является перспективной, поскольку у работающей над ней команды есть мощности для дальнейшего обучения - следующая версия модели обучается на 32*H100. На текущий момент (26.10.2024) V-pred модель с цивита будет работать только с ComfyUI или reForge. Если вы используете Forge и хотите использовать V-Pred модель, то версию с фиксом можете скачать здесь.
Illustrious-XL Свежий (на момент осени 2024) файнтьюн из Южной Кореи. Из коробки знает множество художников и персонажей. Данный чекпоинт позволяет относительно стабильно генерировать нескольких персонажей без перемешивания их признаков. Данная модель быстро приобрела популярность после выхода.
Animagine XL Один из самых успешных аниме-файнтьюнов в эпоху до того, когда доминация поней ещё не была такой очевидной.
Все модели на основе SDXL

Stable Diffusion 1

Stable Diffusion 1 является базовой моделью, выпущенной Stability AI летом 2022 года.

Обучалась на изображениях из датасета LAION-5B, преобразованных в размер 512x512 пикселей. Для версии 1.4 использовался оригинальный датасет без какой-либо фильтрации NSFW-изображений.

Это первая из открытых моделей для генерации изображений, ставшая массовой.

Модели на основе SD1

Модель Примечания
NovelAI V1 Первый аниме-чекпоинт, попавший в публичный доступ. Саму модель NAI1 сейчас напрямую никто не использует, разве что в качестве базовой модели для обучения своих собственных лор и моделей.
EasyFluff + HLL Модель для генерации фуррей с подключённой HLL-лорой была наилучшим решением для генерации NSFW до момента выхода Pony Diffusion V6 XL. Этот подход быть интересен тем, чьё железо не позволяет комфортно запускать SDXL-чекпонты
Старый каталог
Все модели на основе SD1

Прочие модели

Ниже предоставлен список базовых моделей, которые не получили широкой популярности.


AuraFlow — базовая модель, выпущенная группой независимых исследователей из fal.ai летом 2024 года.


Stable Diffusion 3 Medium - базовая модель, выпущенная Stability AI летом 2024 года.

Отличалась высокой меметичностью в связи с тем, что борьба с NSFW в датасете дошла до такой степени, что модель не могла генерировать девушек, лежащих на траве.

Веса прочих базовых моделей из семейства SD3 (такие как Stable Diffusion 3 Large) не были выложены в паблик - доступ к ним предоставляется только по подписочной системе.


Stable Cascade - базовая модель, выпущенная Stability AI в начале 2024 года.

Использует новую (на момент выхода) архитектуру Würstchen и отличается более высоким уровнем "сжатия" латентного пространства по сравнению с прошлыми моделями, для примера:

  • SD1 использует коэффициент сжатия 8, в результате чего изображение 1024x1024 кодируется в 128x128
  • Stable Cascade достигает коэффициента сжатия 42, то есть изображение размером 1024x1024 кодируется в 24x24

Stable Diffusion 2 - базовая модель, выпущенная Stability AI осенью 2022 года.

По сравнению с SD1 отличается более высоким базовым разрешением (768x768, в то время как SD1 использовал 512x512). Кроме того, из датасета были отфильтрованы NSFW-изображения.