-h, --help |
Выводит этот список |
--model [MODEL] |
Модель для загрузки. Можно указать локальный путь, если моделька лежит рядом с экзешником. |
--port PORT |
Порт для вывода, например 5001 |
--host HOST |
Host IP to listen on. If empty, all routable interfaces are accepted. |
--launch |
Откроет а браузере вкладку с кобольдом после запуска |
--lora [lora_filename] [[lora_base] ...] |
Лора для загрузки поверх модели, работает только с LLAMA моделями. Эксперимнтальная фича. |
--config CONFIG |
Можно загрузить файл с настройками кобольда. Настройки можно сохранить в UI, жмякнув Save внизу. При этом все остальные аргументы будут игниророваться. |
--threads THREADS |
Количество потоков, которые будут выгружены на процессор. Если не указывать, будет выбрано автоматически, основываясь на количестве ядер ЦП. |
--blasthreads [threads] |
Количество слоёв, которые будут использоваться для BLAS. Если не указать, будет выбрано то же количество что и в --threads |
--highpriority |
Запускает кобольд в высоком приоритете, может повысить скорость генерации, но этот режим экспериментальный и может глючить. |
--contextsize 1024,2048,4096,... |
Максимальный размер контекста, используйте только степени двойки. По дефолту 2048. |
--blasbatchsize -1,32,64,...,2048 |
Размер пачки, которую единовременно будет обрабатывать BLAS. Значение -1 выключает BLAS вообще. |
--ropeconfig [rope-freq-scale] [[rope-freq-base] ...] |
Скалирование ROPE и его база, например, --ropeconfig 0.25 10000. Если не указывать, автоматом выставит значения на основе твоего размера контекста. Для линейного масштабирования можно указать только первое значение. |
--smartcontext |
Зарезервирует порцию контекста чтобы пореже пересчитывать BLAS. Крайне хреново работает с memory, world info и author's note, потому что они все любят влезать посреди контекста, нарушая его целостность. |
--noshift |
Если указано, кобольд не будет пытаться отрезать или двигать контекст (это когда ты включаешь Allow Editing и удаляешь что-нибудь) |
--bantokens [token_substrings] [[token_substrings] ...] |
Банит указанные строки, сетка не будет их использовать. |
--forceversion [version] |
Если формат модели не определился сам собой, тут можно указать его, например, 401 для GPTNeoX-Type2 |
--nommap |
Не использовать mmap для загрузки новых моделей |
--usemlock |
Для эпплопидаров. Принудительно хранить модель в оперативке вместо того чтобы её двигать или сжимать. |
--noavx2 |
Не использовать набор иструкций AVX2 (старые материнки и биосы не умеют в AVX2), не будет работать с --clblast |
--debugmode [DEBUGMODE] |
Режим отладки, выводит в консольку дополительную информацию. |
--skiplauncher |
Не открывает лаунчер кобольда, а сразу его запускает. Непонятно, нахуя это нужно, если при указании других параметров лаунчер всё равно не будет запускаться, а без них даже модельку не загрузить. |
--hordeconfig [hordemodelname] [[hordegenlength] [hordemaxctx] [hordeapikey] [hordeworkername] ...] |
Настройки для AI Horde. Первый параметр обязательный, остальные по желанию. |
--noblas |
Не использовать OpenBLAS для ускорения переваривания промпта. |
--useclblast {0,1,..,8} {0,1,..,8} |
Использовать CLBlast для ускорения при помощи видяхи. Нужно указать оба аргумента, первый это platform ID, второй device ID, например --useclblast 1 0). |
--usecublas [[lowvram/normal] [main GPU ID] [mmq] [[lowvram/normal] [main GPU ID] [mmq] ...]] |
Использовать CuBLAS для ускорения при помощи видяхи с CUDA. Выбирай lowvram чтобы не размечать VRAM под scratch buffer. Следующий параметр - ID видяхи, если не указать, будет использовать все видеокарты. Радеонщикам же нужно скачать форк кобольда под ROCm. |
--gpulayers [GPU layers] |
Количество слоёв, которые будут выгружены на видеокарту. |
--tensor_split [Ratios] [[Ratios] ...] |
Только для CUDA при выборе ALL GPU. Указывает пропорции для выгрузки тензоров по нескольким видяхам, например --tensor_split 7 3 выгрузит слои в соотношении семь к трём на первую и вторую видяху соответственно. |
--onready [shell command] |
После того как модель будет загружена, выполнит консольную команду, указанную в [shell command] |
--multiuser [limit] |
Запуск в режиме мультиюзера, который ставит в очередь приходящие запросы вместо того чтобы их игнорировать. |
--remotetunnel |
Запускает Cloudflare чтобы создать удалённый туннель, который позволит пользоваться кобольдом по сети, в том числе игнорируя фаерволлы. Можно врубить дома на пеке, пойти на пары и там крутить промпты с телефона. |
--foreground |
Будет вытаскивать окошко с консолькой на передний план после каждой генерации. Только для пользователей винды. |
--preloadstory PRELOADSTORY |
После запуска загрузит подготовленный в .json формате сценарий. Под сценариями тут подразумевается файлик, который ты можешь сохранить из веб-интерфейса кобольда. |
--quiet |
Тихий режим, скрывает вывод нагенерированного текста из консоли. Автоматически включается если указан --hordeconfig. |
--ssl [cert_pem] [[key_pem] ...] |
Позволяет выдавать весь производимый контент по SSL. Требуется указать действующий НЕЗАШИФРОВАННЫЙ SSL сертификат и ключ .pem |