sidebar_position: 2 title: "Run Local LLMs on Mac" description: "Set up a local OpenAI-compatible LLM server on macOS with llama.cpp or MLX, including model selection, memory optimization, and real benchmarks on Apple Silicon" lang: ru

Запустите локальные LLM на Mac

В этом руководстве вы узнаете, как запустить локальный сервер LLM на macOS с API-интерфейсом, совместимым с OpenAI. Вы получаете полную конфиденциальность, нулевые затраты на API и удивительно хорошую производительность на Apple Silicon.

Мы рассматриваем два бэкэнда:

Бэкэнд	Установить	Лучшее в	Формат
llama.cpp	`brew install llama.cpp`	Самое быстрое время создания первого токена, квантованный KV-кэш для малой памяти	ГГУФ
омлкс	omlx.ai	Самая быстрая генерация токенов, встроенная оптимизация Metal	MLX (защитные тензоры)

Оба предоставляют OpenAI-совместимую конечную точку /v1/chat/completions. Hermes работает с любым из них — просто укажите http://localhost:8080 or http://localhost:8000..

:::информация Только для Apple Silicon Это руководство предназначено для компьютеров Mac с Apple Silicon (M1 и новее). Компьютеры Intel Mac будут работать с llama.cpp, но без ускорения графического процессора — ожидайте значительного снижения производительности.

Вариант	Размер на диске	Требуется ОЗУ (контекст 128 КБ)	Бэкэнд
Qwen3.5-9B-Q4_K_M (ГГУФ)	5,3 ГБ	~10 ГБ с квантованным KV-кешем	лама.cpp
Qwen3.5-9B-mlx-lm-mxfp4 (MLX)	~5 ГБ	~12 ГБ	омлкс

Флаг	Цель
`-ngl 99`	Выгрузите все слои в графический процессор (металл). Используйте большое число, чтобы ничего не оставалось в процессоре.
`-c 131072`	Размер окна контекста (128 000 токенов). Уменьшите это значение, если у вас мало памяти.
`-np 1`	Количество параллельных слотов. Оставьте значение 1 для однопользовательского использования — большее количество слотов разделит ваш бюджет памяти.
`-fa on`	Вспышка внимания. Уменьшает использование памяти и ускоряет вывод в длинном контексте.
`--cache-type-k q4_0`	Квантуйте ключевой кэш до 4-битного. Это экономит память.
`--cache-type-v q4_0`	Квантуйте кэш значений до 4-битного. Вместе с вышесказанным это сокращает кэш-память KV примерно на 75% по сравнению с f16.
`--host 0.0.0.0`	Слушайте на всех интерфейсах. Используйте `127.0.0.1`, если вам не нужен доступ к сети.

Тип кэша KV	Кэш-память KV (128K ctx, модель 9B)
f16 (по умолчанию)	~16 ГБ
q8_0	~8 ГБ
q4_0	~4 ГБ

Metric	llama.cpp (Q4_K_M)	MLX (mxfp4)	Winner
TTFT (avg)	67 ms	289 ms	llama.cpp (4.3x faster)
TTFT (p50)	66 ms	286 ms	llama.cpp (4.3x faster)
Generation (avg)	70 tok/s	96 tok/s	MLX (37% faster)
Generation (p50)	70 tok/s	96 tok/s	MLX (37% faster)
Total time (512 tokens)	7.3s	5.5s	MLX (25% faster)

Use case	Recommendation
Interactive chat, low-latency tools	llama.cpp
Long-form generation, bulk processing	MLX (omlx)
Memory-constrained (8-16 GB)	llama.cpp (quantized KV cache is unmatched)
Serving multiple models simultaneously	omlx (built-in multi-model support)
Maximum compatibility (Linux too)	llama.cpp

Запустите локальные LLM на Mac

Выбор модели

Вариант А: llama.cpp

Установить

Загрузите модель

Запускаем сервер

Оптимизация памяти для систем с ограниченными возможностями

Проверьте это

Получить название модели

Вариант Б: MLX через omlx

Установить

Загрузите модель

Запускаем сервер

Test it

List available models

Benchmarks: llama.cpp vs MLX

Results

What this means

Which one should you pick?

Connect to Hermes

Timeouts

Timeout	Default	Local auto-adjustment	Env var override
Stream read (socket-level)	120s	Raised to 1800s	`HERMES_STREAM_READ_TIMEOUT`
Stale stream detection	180s	Disabled entirely	`HERMES_STREAM_STALE_TIMEOUT`
API call (non-streaming)	1800s	No change needed	`HERMES_API_TIMEOUT`