SD/FLUX модели¶
Виды моделей¶
Базовые модели¶
Базовая модель — обученная с нуля модель.
Создание базовых моделей требует колоссальных вычислительных ресурсов. В связи с этим, практически не существует базовых моделей, выпущенных энтузиастами. Пока это, по большей части, удел крупных компаний. Единственным исключением из этого, на осень 2024, является только AuraFlow.
Совместимость
LoRA-модели и ControlNet-модели от одних базовых моделей не подходят к другим базовым моделям.
Разные базовые модели потребляют разное количество VRAM.
Таблица актуальна для NVidia:
Базовая модель | Минимальный объём VRAM | Рекомендуемый объём VRAM |
---|---|---|
Stable Diffusion 1 | 4 GB VRAM | 8 GB VRAM |
Stable Diffusion XL | 8 GB VRAM | 12 GB VRAM |
FLUX | 12 GB VRAM | 24 GB VRAM |
Finetune¶
Finetune — дообученная версия базовой модели.
Обучение файньюнов требует умеренных вычислительных ресурсов (в сравнении с созданием базовых моделей), в связи с чем существует большое количество моделей данного вида, созданных различными группами энтузиастов или одиночками.
Примеры файнтьюнов: PonyDiffusion V6 XL, NovelAI V1
Merge¶
Merge — результат процедуры слияния нескольких моделей, или модели с LoRA-моделями.
Создание мёрджей не требует процедуры обучения и может быть выполнено в короткие сроки на потребительском ПК, в связи с чем мёрджи являются самым многочисленным видом моделей. Мёрджи создаются при помощи таких утилит как sd-webui-supermerger.
Во многих случаях используют окончание *****Mix в названии.
Примеры мёрджей: AutismMix, MeinaMix
Inpaint¶
Inpaint-модель — модель с дополнительными слоями, натрененированная специально для процесса инпеинта.
Данные модели не подвержены проблеме наличия швов и неконсистентности во время процедур inpaint/outpaint.
Примеры inpaint-моделей: foocus-inpaint
Вариации моделей¶
Формат файла: ckpt vs safetensors¶
Рекомендация
При наличии выбора используй safetensors
.ckpt
- это старый формат моделей. Кроме весов, он содержит исполняемый код на python, который может быть вредоносным. Сейчас встречается редко.
.safetensors
это более новый формат - он не хранит ничего, кроме весов модели.
Точность: FP16 vs FP32¶
Рекомендация
При наличии выбора используй FP16
Про экспоненциальную форму записи чисел с плавающей запятой
Экспоненциальная форма записи — это представление вещественных чисел в виде двух составляющих:
- Порядок (англ: exponent) — степень числа
- Мантисса (англ: mantissa, significand или fractional part) — значащие цифры этого числа
Данная форма записи удобна для представления очень больших и очень малых чисел, а также для унификации их написания.
Примеры:
Обычная запись | Экспоненциальная форма |
---|---|
42 | +4.2e1 |
149597000 | +1.49597e8 |
0.00000001 | +1e-8 |
-0.00000123 | -1.23e-6 |
FP16 и FP32 — это форматы хранения чисел с плавающей запятой.
Формат FP32 использует 32 бита для хранения отдельного числа:
Формат FP16, так же называемый половинной точностью (half-precision), использует 16 бит для хранения отдельного числа:
По умолчанию, модели формата FP32 так же загружаются с половинной точностью, поэтому профита от большего размера не будет.
Современные модели, такие как FLUX, используют точность BF16 по умолчанию. Как и в случае FP16, используется 16 бит на одно число, но соотношение используемого количества бит для мантиссы и порядка отличается.
Избыточные связи: full vs pruned¶
Рекомендация
При наличии выбора используй pruned
В pruned версиях удалены избыточные связи внутри нейронки, благодаря чему она занимает меньше места. В теории, это слегка ухудшает качество модели, на практике разница малозаметна.
Составляющие части модели¶
Чекпоинт (checkpoint) — файл, хранящий в себе веса какой-либо модели. В случае картинко-генеративных нейростетей, один чекпоинт может включать в себя сразу несколько нейросетей, необходимых для генерации, а именно: U-Net, Text Encoder и VAE.
U-Net¶
U-Net — это архитектура сверточой нейронной сети, которая была разработанна для сегментации изображений ещё в далёком 2015 году. В случае картинко-генеративных нейросетей - это та часть модели, которая отвечает за пошаговое преобразование шума в изображение.
Text Encoder¶
Текстовый энкодер (text encoder) — нейросеть, которая извлекает смысл из текстового промпта и преобразует его в числовой вектор. Схожие по смыслу тексты имеют схожие векторы.
Примеры текстовых энкодеров: CLIP, T5.
VAE¶
VAE (Variational AutoEncoder) — архитектура нейросетей для эффективного сжатия и распаковки данных. В случае картинко-генеративных нейросетей, VAE — это нейронная сеть, которая преобразует RGB-изображение в латентное пространство и обратно.
Подробнее про VAE и латентное пространство смотри здесь.
Популярные модели¶
FLUX¶
Flux — серия базовых моделей, выпущенная 1 августа 2024 года компанией Black Forest Labs. Было анонсировано три модели, веса для двух из них были выложены в паблик:
Модель | Оригинальные веса | Квантованные веса |
---|---|---|
FLUX.1 [dev] | Huggingface | Huggingface |
FLUX.1 [schnell] | Huggingface | Huggingface |
FLUX.1 [pro] | Не опубликованы | Не опубликованы |
Модели семейства FLUX обладают высокими системными требованиями (от 12 GB VRAM) и лучшим пониманием промптов по сравнению с прошлыми поколениями картинко-генеративных моделей.
Из коробки знает аниме-стилистику, но в плане NSFW не может сгенерировать что-либо сложнее, чем топлес.
Модель вышла относительно недавно и пока отсутствуют какие-либо общепризнанные удачные файнтьюны.
Со списком всех моделей на основе FLUX можно ознакомиться здесь.
Pony Diffusion V6 XL¶
Совместимость
В связи с тем, что Pony Diffusion V6 XL была сильно пережарена в процессе обучения, на ней очень слабо работают LoRA-модели и ControlNet-модели от её базовой модели в лице Stable Diffusion XL.
На площадках типа civitai.com совместимые с понями лоры выделены в отдельную категорию.
Pony Diffusion V6 XL (также известный как Pony Diffusion или PonyXL) является самым популярным файнтьюном Stable Diffusion XL в 2024 году.
Модель и миксы на её основе хороши в анатомии и NSFW, но, как правило, качество фонов там ниже, чем у других моделей.
Модели на основе PonyDiffusion V6 XL
Модель | Примечания |
---|---|
Pony Diffusion V6 XL | Неповторимый оригинал от самого преданного фаната франшизы "Мой маленький пони". Ponygods, I kneel! |
AutismMix SDXL | Один из самых популярных мёрджей на основе PonyDiffusion V6 XL. Данная модель предоставляет хороший базовый стиль и анатомию, но ценой является снижение вариативности генераций. Хороший вариант для начинающего. |
4th tail | Продвинутый файнтьюн поней со знанием большого количества художников (примеры в картинках) и персонажей из коробки. |
T-ponynai3 | Ещё один популярный аниме-файнтьюн поней. |
Все модели на основе поней | На случай, если этого списка вам показалось мало, то по этой ссылке вы сможете найти все чекпоинты на основе поней, тысячи их! |
Stable Diffusion XL¶
Stable Diffusion XL является базовой моделью, выпущенной Stability AI летом 2023 года.
Модели на основе SDXL
Модель | Примечания |
---|---|
Pony Diffusion V6 XL | Самый популярный файнтьюн SDXL 2024 года. Модель и миксы на её основе хороши в анатомии и NSFW, но, как правило, качество фонов там ниже, чем у других моделей. Список моделей на основе поней смотри выше. |
NoobAI-XL | Популярный файнтьюн Illustrious-XL. Эта модель является перспективной, поскольку у работающей над ней команды есть мощности для дальнейшего обучения - следующая версия модели обучается на 32*H100. На текущий момент (26.10.2024) V-pred модель с цивита будет работать только с ComfyUI или reForge. Если вы используете Forge и хотите использовать V-Pred модель, то версию с фиксом можете скачать здесь. |
Illustrious-XL | Свежий (на момент осени 2024) файнтьюн из Южной Кореи. Из коробки знает множество художников и персонажей. Данный чекпоинт позволяет относительно стабильно генерировать нескольких персонажей без перемешивания их признаков. Данная модель быстро приобрела популярность после выхода. |
Animagine XL | Один из самых успешных аниме-файнтьюнов в эпоху до того, когда доминация поней ещё не была такой очевидной. |
Все модели на основе SDXL |
Stable Diffusion 1¶
Stable Diffusion 1 является базовой моделью, выпущенной Stability AI летом 2022 года.
Обучалась на изображениях из датасета LAION-5B, преобразованных в размер 512x512 пикселей. Для версии 1.4 использовался оригинальный датасет без какой-либо фильтрации NSFW-изображений.
Это первая из открытых моделей для генерации изображений, ставшая массовой.
Модели на основе SD1
Модель | Примечания |
---|---|
NovelAI V1 | Первый аниме-чекпоинт, попавший в публичный доступ. Саму модель NAI1 сейчас напрямую никто не использует, разве что в качестве базовой модели для обучения своих собственных лор и моделей. |
EasyFluff + HLL | Модель для генерации фуррей с подключённой HLL-лорой была наилучшим решением для генерации NSFW до момента выхода Pony Diffusion V6 XL. Этот подход быть интересен тем, чьё железо не позволяет комфортно запускать SDXL-чекпонты |
Старый каталог | |
Все модели на основе SD1 |
Прочие модели¶
Ниже предоставлен список базовых моделей, которые не получили широкой популярности.
AuraFlow — базовая модель, выпущенная группой независимых исследователей из fal.ai летом 2024 года.
Stable Diffusion 3 Medium - базовая модель, выпущенная Stability AI летом 2024 года.
Отличалась высокой меметичностью в связи с тем, что борьба с NSFW в датасете дошла до такой степени, что модель не могла генерировать девушек, лежащих на траве.
Веса прочих базовых моделей из семейства SD3 (такие как Stable Diffusion 3 Large) не были выложены в паблик - доступ к ним предоставляется только по подписочной системе.
Stable Cascade - базовая модель, выпущенная Stability AI в начале 2024 года.
Использует новую (на момент выхода) архитектуру Würstchen и отличается более высоким уровнем "сжатия" латентного пространства по сравнению с прошлыми моделями, для примера:
- SD1 использует коэффициент сжатия 8, в результате чего изображение 1024x1024 кодируется в 128x128
- Stable Cascade достигает коэффициента сжатия 42, то есть изображение размером 1024x1024 кодируется в 24x24
Stable Diffusion 2 - базовая модель, выпущенная Stability AI осенью 2022 года.
По сравнению с SD1 отличается более высоким базовым разрешением (768x768, в то время как SD1 использовал 512x512). Кроме того, из датасета были отфильтрованы NSFW-изображения.