Перейти к содержанию

Выбор железа для запуска

Запускать LLM можно на железе разной стоимости

от пары банок пива до стоек в миллионы долларов. Работать будет везде, но скорость сильно зависит от вложений.

Dnische-тир

Небольшие LLM можно запускать прямо на процессоре любой зионо-сборки. Желательно иметь процессор с поддержкой хотя бы AVX (от 2011-3 сокета и выше), но можно и на совсем бомжесборке, просто ещё медленнее (хотя куда уж там). Ключевым параметров тут является скорость оперативной памяти, так что занимаем все каналы, что есть. Избегаем материнок с порезанными каналами (например 2 канала для 2011-3).
Готовьтесь к ожиданию, скорость будет очень низкой, вплоть до 0.3 токенов в секунду.

Low-тир

Покупка днище видеокарты для хоть какого-то ускорения обработки хотя бы промта. Чем современнее поколение, тем лучше результат. Обладатели 1050 Ti/1060/1660 super, вы все тут. Плавно перетекает в мидл-тир, граница 3060 с 12 ГБ памяти (снизу или сверху, решать вам).

Low-ебле-тир

Старые Tesla с алиэкспресс/ozon.

Топ выбором тут является NVIDIA Видеокарта Tesla P40 за свою сравнительно низкую цену (барыги уже начали задирать) и 24 ГБ сравнительно быстрой видеопамяти (346 GB/s). Но чип уже старый, и не умеет в современные инструкции. Лучше всего на этой карте работает llama.cpp и его форки. Запуск этой видеокарты на потребительском железе сопровождается некоторым объёмом ебли, про которую можно почитать по ссылке.
Вторая рекомендуемая карта это Tesla P100. Она имеет всего лишь 16 ГБ видеопамяти, зато типа HBM2, что обеспечивает ей скорость в 732 GB/s. Чип Pascal, такого же поколения как и у P40, но с числами половинной точности работает значительно быстрее последней, что должно позволять запускать на ней exllama.
Карты моделей Tesla M40 покупать ни в коем случае нельзя, они архитектурно уёбищны, только деньги зря потратите.

Все теслы не имеют видеовыходов и снабжены отсутствием вентиляторов, так что необходима встроенная или вторая видеокарта для вывода изображения, а так же колхоз с охлаждением/покупка готовых вариантов от ушлых китайцев.

Middle-тир

Любая видеокарта NVIDIA семейства RTX, чем больше видеопамяти, ширины шины и частоты памяти, тем лучше. Топом тут будет 3090 (Ti) со своими 24 ГБ быстрейшей памяти (936 ГБ/с). На вторичке стоит относительно своего единственного конкурента в этом классе- 4090. Само собой, 4090 в этом классе король, но её стоимость в виду санкций и жадности куртки перешагивает все пороги адекватности.

HiEnd-тир

NVIDIA A6000 RTX 48 ГБ (чип такой же, как и в 3090, но объём врама удвоен), A100 на 40/80 ГБ и прочие монстры для профессионалов. Куртка снимает с рынка все сливки, продавая эти картонки за миллионы (буквально), так что в треде владельцев нет. Обладают в разы более высокой производительностью и объёмами памяти, нежели чем любые домашние решения. Получить к ним доступ можно разве что в аренду, да на работе/учёбе.