Перейти к содержанию

Полный список консольных команд

Команда Описание
-h, --help Выводит этот список
--model [MODEL] Модель для загрузки. Можно указать локальный путь, если моделька лежит рядом с экзешником.
--port PORT Порт для вывода, например 5001
--host HOST Host IP to listen on. If empty, all routable interfaces are accepted.
--launch Откроет а браузере вкладку с кобольдом после запуска
--lora [lora_filename] [[lora_base] ...] Лора для загрузки поверх модели, работает только с LLAMA моделями. Эксперимнтальная фича.
--config CONFIG Можно загрузить файл с настройками кобольда. Настройки можно сохранить в UI, жмякнув Save внизу. При этом все остальные аргументы будут игниророваться.
--threads THREADS Количество потоков, которые будут выгружены на процессор. Если не указывать, будет выбрано автоматически, основываясь на количестве ядер ЦП.
--blasthreads [threads] Количество слоёв, которые будут использоваться для BLAS. Если не указать, будет выбрано то же количество что и в --threads
--highpriority Запускает кобольд в высоком приоритете, может повысить скорость генерации, но этот режим экспериментальный и может глючить.
--contextsize 1024,2048,4096,... Максимальный размер контекста, используйте только степени двойки. По дефолту 2048.
--blasbatchsize -1,32,64,...,2048 Размер пачки, которую единовременно будет обрабатывать BLAS. Значение -1 выключает BLAS вообще.
--ropeconfig [rope-freq-scale] [[rope-freq-base] ...] Скалирование ROPE и его база, например, --ropeconfig 0.25 10000. Если не указывать, автоматом выставит значения на основе твоего размера контекста. Для линейного масштабирования можно указать только первое значение.
--smartcontext Зарезервирует порцию контекста чтобы пореже пересчитывать BLAS. Крайне хреново работает с memory, world info и author's note, потому что они все любят влезать посреди контекста, нарушая его целостность.
--noshift Если указано, кобольд не будет пытаться отрезать или двигать контекст (это когда ты включаешь Allow Editing и удаляешь что-нибудь)
--bantokens [token_substrings] [[token_substrings] ...] Банит указанные строки, сетка не будет их использовать.
--forceversion [version] Если формат модели не определился сам собой, тут можно указать его, например, 401 для GPTNeoX-Type2
--nommap Не использовать mmap для загрузки новых моделей
--usemlock Для эпплопидаров. Принудительно хранить модель в оперативке вместо того чтобы её двигать или сжимать.
--noavx2 Не использовать набор иструкций AVX2 (старые материнки и биосы не умеют в AVX2), не будет работать с --clblast
--debugmode [DEBUGMODE] Режим отладки, выводит в консольку дополительную информацию.
--skiplauncher Не открывает лаунчер кобольда, а сразу его запускает. Непонятно, нахуя это нужно, если при указании других параметров лаунчер всё равно не будет запускаться, а без них даже модельку не загрузить.
--hordeconfig [hordemodelname] [[hordegenlength] [hordemaxctx] [hordeapikey] [hordeworkername] ...] Настройки для AI Horde. Первый параметр обязательный, остальные по желанию.
--noblas Не использовать OpenBLAS для ускорения переваривания промпта.
--useclblast {0,1,..,8} {0,1,..,8} Использовать CLBlast для ускорения при помощи видяхи. Нужно указать оба аргумента, первый это platform ID, второй device ID, например --useclblast 1 0).
--usecublas [[lowvram/normal] [main GPU ID] [mmq] [[lowvram/normal] [main GPU ID] [mmq] ...]] Использовать CuBLAS для ускорения при помощи видяхи с CUDA. Выбирай lowvram чтобы не размечать VRAM под scratch buffer. Следующий параметр - ID видяхи, если не указать, будет использовать все видеокарты. Радеонщикам же нужно скачать форк кобольда под ROCm.
--gpulayers [GPU layers] Количество слоёв, которые будут выгружены на видеокарту.
--tensor_split [Ratios] [[Ratios] ...] Только для CUDA при выборе ALL GPU. Указывает пропорции для выгрузки тензоров по нескольким видяхам, например --tensor_split 7 3 выгрузит слои в соотношении семь к трём на первую и вторую видяху соответственно.
--onready [shell command] После того как модель будет загружена, выполнит консольную команду, указанную в [shell command]
--multiuser [limit] Запуск в режиме мультиюзера, который ставит в очередь приходящие запросы вместо того чтобы их игнорировать.
--remotetunnel Запускает Cloudflare чтобы создать удалённый туннель, который позволит пользоваться кобольдом по сети, в том числе игнорируя фаерволлы. Можно врубить дома на пеке, пойти на пары и там крутить промпты с телефона.
--foreground Будет вытаскивать окошко с консолькой на передний план после каждой генерации. Только для пользователей винды.
--preloadstory PRELOADSTORY После запуска загрузит подготовленный в .json формате сценарий. Под сценариями тут подразумевается файлик, который ты можешь сохранить из веб-интерфейса кобольда.
--quiet Тихий режим, скрывает вывод нагенерированного текста из консоли. Автоматически включается если указан --hordeconfig.
--ssl [cert_pem] [[key_pem] ...] Позволяет выдавать весь производимый контент по SSL. Требуется указать действующий НЕЗАШИФРОВАННЫЙ SSL сертификат и ключ .pem