sidebar_position: 8 title: "Use Voice Mode with Hermes" description: "A practical guide to setting up and using Hermes voice mode across CLI, Telegram, Discord, and Discord voice channels" lang: ru


Используйте голосовой режим с Гермесом

Это руководство является практическим дополнением к Справочнику по функциям голосового режима.

Если на странице функций объясняется, на что способен голосовой режим, в этом руководстве показано, как на самом деле его правильно использовать.

Для чего подходит голосовой режим

Голосовой режим особенно полезен, когда: - вам нужен рабочий процесс CLI без помощи рук - вы хотите устные ответы в Telegram или Discord - вы хотите, чтобы Гермес сидел на голосовом канале Discord для живого общения - вам нужно быстро сформулировать идею, отладить или передвигаться вперед-назад во время прогулки, а не набора текста

Выберите настройку голосового режима

На самом деле в Hermes есть три разных голосовых опыта.

Режим Лучшее для Платформа
Интерактивная микрофонная петля Личное использование без помощи рук во время программирования или исследования интерфейс командной строки
Голосовые ответы в чате Устные ответы наряду с обычным обменом сообщениями Телеграмма, Дискорд
Бот живого голосового канала Групповое или личное живое общение в ВК Голосовые каналы Discord

Хороший путь: 1. сначала начните работать с текстом 2. включить голосовые ответы во-вторых 3. переходите к голосовым каналам Discord в последнюю очередь, если хотите получить все возможности

Шаг 1: сначала убедитесь, что обычный Гермес работает

Прежде чем прикоснуться к голосовому режиму, убедитесь, что: - Гермес начинает - ваш провайдер настроен - агент может нормально отвечать на текстовые подсказки

hermes

Спросите что-нибудь простое:

What tools do you have available?

Если это еще не так, сначала исправьте текстовый режим.

Шаг 2: установите нужные дополнения

CLI микрофон + воспроизведение

pip install "hermes-agent[voice]"

Платформы обмена сообщениями

pip install "hermes-agent[messaging]"

Премиум ElevenLabs TTS

pip install "hermes-agent[tts-premium]"

Локальный NeuTTS (опционально)

python -m pip install -U neutts[all]

Всё

pip install "hermes-agent[all]"

Шаг 3: установите системные зависимости

macOS

brew install portaudio ffmpeg opus
brew install espeak-ng

Убунту/Дебиан

sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng

Почему это важно: - portaudio → вход/воспроизведение микрофона для голосового режима CLI - ffmpeg → преобразование звука для TTS и доставки сообщений - opus → Поддержка голосового кодека Discord - espeak-ng → серверная часть фонемайзера для NeuTTS

Шаг 4: выберите провайдеров STT и TTS

Hermes поддерживает как локальные, так и облачные речевые стеки.

Самая простая/дешевая установка

Используйте локальный STT и бесплатный Edge TTS: - Поставщик STT: local - Провайдер TTS: edge

Обычно это лучшее место для начала.

Пример файла среды

Добавьте в ~/.hermes/.env:

# Cloud STT options (local needs no key)
GROQ_API_KEY=***
VOICE_TOOLS_OPENAI_KEY=***

# Premium TTS (optional)
ELEVENLABS_API_KEY=***

Рекомендации провайдера

Преобразование речи в текст

Преобразование текста в речь

Если вы используете hermes setup

Если вы выберете NeuTTS в мастере установки, Hermes проверит, установлен ли уже neutts. Если он отсутствует, мастер сообщит вам, что NeuTTS нужен пакет Python neutts и системный пакет espeak-ng, предложит установить их для вас, установит espeak-ng с помощью менеджера пакетов вашей платформы, а затем запустит:

python -m pip install -U neutts[all]

Если вы пропустите эту установку или произойдет сбой, мастер вернется к Edge TTS.

Шаг 5: рекомендуемая конфигурация

voice:
  record_key: "ctrl+b"
  max_recording_seconds: 120
  auto_tts: false
  beep_enabled: true
  silence_threshold: 200
  silence_duration: 3.0

stt:
  provider: "local"
  local:
    model: "base"

tts:
  provider: "edge"
  edge:
    voice: "en-US-AriaNeural"

Это хороший консервативный вариант по умолчанию для большинства людей.

Если вместо этого вам нужен локальный TTS, переключите блок tts на:

tts:
  provider: "neutts"
  neutts:
    ref_audio: ''
    ref_text: ''
    model: neuphonic/neutts-air-q4-gguf
    device: cpu

Вариант использования 1: голосовой режим CLI

Включи его

Запускаем Гермес:

hermes

Внутри CLI:

/voice on

Ход записи

Ключ по умолчанию: - Ctrl+B

Рабочий процесс: 1. нажмите Ctrl+B 2. говорить 3. дождитесь обнаружения тишины, чтобы автоматически остановить запись. 4. Гермес записывает и отвечает 5. если включен TTS, то проговаривается ответ 6. цикл может автоматически перезапуститься для непрерывного использования.

Полезные команды

/voice
/voice on
/voice off
/voice tts
/voice status

Хорошие рабочие процессы CLI

Непосредственная отладка

Скажите:

I keep getting a docker permission error. Help me debug it.

Затем продолжите без помощи рук: - «Прочитай последнюю ошибку еще раз» - «Объясните причину более простыми словами» - «Теперь дайте мне точное решение»

Исследования/мозговой штурм

Отлично подходит для: - гулять, думая - диктовать полусформировавшиеся идеи - попросить Гермеса структурировать ваши мысли в режиме реального времени

Доступность / сеансы с малым набором текста

Если печатать неудобно, голосовой режим — один из самых быстрых способов оставаться в курсе событий Hermes.

Настройка поведения CLI

Порог тишины

Если Гермес запускается/останавливается слишком агрессивно, настройте:

voice:
  silence_threshold: 250

Более высокий порог = менее чувствителен.

Продолжительность молчания

Если вы делаете много пауз между предложениями, увеличьте:

voice:
  silence_duration: 4.0

Клавиша записи

Если Ctrl+B конфликтует с вашим терминалом или привычками tmux:

voice:
  record_key: "ctrl+space"

Вариант использования 2: голосовые ответы в Telegram или Discord

Этот режим проще, чем полные голосовые каналы.

Hermes остается обычным чат-ботом, но может отвечать.

Запускаем шлюз

hermes gateway

Включите голосовые ответы

Внутри Telegram или Discord:

/voice on

или

/voice tts

Режимы

Режим Значение
off только текст
voice_only говорить только тогда, когда пользователь отправил голос
all проговаривайте каждый ответ

Когда какой режим использовать

Хорошие рабочие процессы обмена сообщениями

Telegram-помощник в вашем телефоне

Используйте, когда: - вы находитесь вдали от своей машины - вы хотите отправлять голосовые заметки и получать быстрые устные ответы - вы хотите, чтобы Гермес функционировал как портативный исследовательский или оперативный помощник

Discord DM с голосовым выводом

Полезно, когда вы хотите конфиденциальное взаимодействие без упоминания канала сервера.

Вариант использования 3: голосовые каналы Discord

Это самый продвинутый режим.

Гермес присоединяется к Discord VC, слушает речь пользователя, расшифровывает ее, запускает обычный конвейер агента и произносит ответы обратно в канал.

Требуемые разрешения Discord

В дополнение к обычной настройке текстового бота убедитесь, что у него есть: - Подключиться - Говори - желательно использовать голосовую активность

Также включите привилегированные намерения на портале разработчиков: - Намерение присутствия - Намерение участников сервера - Цель содержания сообщения

Присоединяйтесь и уходите

В текстовом канале Discord, где присутствует бот:

/voice join
/voice leave
/voice status

Что происходит при присоединении

Рекомендации по использованию Discord VC

Рекомендации по качеству голоса

Настройка лучшего качества

Лучшая скорость/удобство настройки

Лучшая установка с нулевой стоимостью

Распространенные режимы сбоя

"Аудиоустройство не найдено"

Установите portaudio.

"Бот подключается, но ничего не слышит"

Проверьте: - ваш идентификатор пользователя Discord находится в DISCORD_ALLOWED_USERS - у тебя не отключен звук - привилегированные намерения включены - у бота есть разрешения Connect/Speak

«Он записывает, но не говорит»

Проверьте: - Конфигурация провайдера TTS - API-ключ/квота для ElevenLabs или OpenAI - ffmpeg установить для путей преобразования Edge.

"Whisper выводит мусор"

Попробуйте: - более спокойная обстановка - выше silence_threshold - другой поставщик/модель STT - более короткие и четкие высказывания

"Это работает в личных сообщениях, но не в каналах сервера"

Это часто упоминаемая политика.

По умолчанию боту требуется @mention в текстовых каналах сервера Discord, если не настроено иначе.

Рекомендуемая настройка на первую неделю

Если вы хотите кратчайший путь к успеху:

  1. заставить текст Гермеса работать
  2. установите hermes-agent[voice]
  3. используйте голосовой режим CLI с локальным STT + Edge TTS.
  4. затем включите /voice on в Telegram или Discord.
  5. только после этого пробуйте режим Discord VC

Благодаря такому прогрессу поверхность отладки остается небольшой.

Где читать дальше