sidebar_position: 8 title: "Use Voice Mode with Hermes" description: "A practical guide to setting up and using Hermes voice mode across CLI, Telegram, Discord, and Discord voice channels" lang: ru
Используйте голосовой режим с Гермесом
Это руководство является практическим дополнением к Справочнику по функциям голосового режима.
Если на странице функций объясняется, на что способен голосовой режим, в этом руководстве показано, как на самом деле его правильно использовать.
Для чего подходит голосовой режим
Голосовой режим особенно полезен, когда: - вам нужен рабочий процесс CLI без помощи рук - вы хотите устные ответы в Telegram или Discord - вы хотите, чтобы Гермес сидел на голосовом канале Discord для живого общения - вам нужно быстро сформулировать идею, отладить или передвигаться вперед-назад во время прогулки, а не набора текста
Выберите настройку голосового режима
На самом деле в Hermes есть три разных голосовых опыта.
| Режим | Лучшее для | Платформа |
|---|---|---|
| Интерактивная микрофонная петля | Личное использование без помощи рук во время программирования или исследования | интерфейс командной строки |
| Голосовые ответы в чате | Устные ответы наряду с обычным обменом сообщениями | Телеграмма, Дискорд |
| Бот живого голосового канала | Групповое или личное живое общение в ВК | Голосовые каналы Discord |
Хороший путь: 1. сначала начните работать с текстом 2. включить голосовые ответы во-вторых 3. переходите к голосовым каналам Discord в последнюю очередь, если хотите получить все возможности
Шаг 1: сначала убедитесь, что обычный Гермес работает
Прежде чем прикоснуться к голосовому режиму, убедитесь, что: - Гермес начинает - ваш провайдер настроен - агент может нормально отвечать на текстовые подсказки
hermes
Спросите что-нибудь простое:
What tools do you have available?
Если это еще не так, сначала исправьте текстовый режим.
Шаг 2: установите нужные дополнения
CLI микрофон + воспроизведение
pip install "hermes-agent[voice]"
Платформы обмена сообщениями
pip install "hermes-agent[messaging]"
Премиум ElevenLabs TTS
pip install "hermes-agent[tts-premium]"
Локальный NeuTTS (опционально)
python -m pip install -U neutts[all]
Всё
pip install "hermes-agent[all]"
Шаг 3: установите системные зависимости
macOS
brew install portaudio ffmpeg opus
brew install espeak-ng
Убунту/Дебиан
sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng
Почему это важно:
- portaudio → вход/воспроизведение микрофона для голосового режима CLI
- ffmpeg → преобразование звука для TTS и доставки сообщений
- opus → Поддержка голосового кодека Discord
- espeak-ng → серверная часть фонемайзера для NeuTTS
Шаг 4: выберите провайдеров STT и TTS
Hermes поддерживает как локальные, так и облачные речевые стеки.
Самая простая/дешевая установка
Используйте локальный STT и бесплатный Edge TTS:
- Поставщик STT: local
- Провайдер TTS: edge
Обычно это лучшее место для начала.
Пример файла среды
Добавьте в ~/.hermes/.env:
# Cloud STT options (local needs no key)
GROQ_API_KEY=***
VOICE_TOOLS_OPENAI_KEY=***
# Premium TTS (optional)
ELEVENLABS_API_KEY=***
Рекомендации провайдера
Преобразование речи в текст
local→ лучший вариант по умолчанию для обеспечения конфиденциальности и бесплатного использования.groq→ очень быстрая облачная транскрипцияopenai→ хороший платный запасной вариант
Преобразование текста в речь
edge→ бесплатно и достаточно хорошо для большинства пользователей.neutts→ бесплатный локальный/на устройстве TTSelevenlabs→ лучшее качествоopenai→ хорошая золотая серединаmistral→ многоязычный, родной Opus
Если вы используете hermes setup
Если вы выберете NeuTTS в мастере установки, Hermes проверит, установлен ли уже neutts. Если он отсутствует, мастер сообщит вам, что NeuTTS нужен пакет Python neutts и системный пакет espeak-ng, предложит установить их для вас, установит espeak-ng с помощью менеджера пакетов вашей платформы, а затем запустит:
python -m pip install -U neutts[all]
Если вы пропустите эту установку или произойдет сбой, мастер вернется к Edge TTS.
Шаг 5: рекомендуемая конфигурация
voice:
record_key: "ctrl+b"
max_recording_seconds: 120
auto_tts: false
beep_enabled: true
silence_threshold: 200
silence_duration: 3.0
stt:
provider: "local"
local:
model: "base"
tts:
provider: "edge"
edge:
voice: "en-US-AriaNeural"
Это хороший консервативный вариант по умолчанию для большинства людей.
Если вместо этого вам нужен локальный TTS, переключите блок tts на:
tts:
provider: "neutts"
neutts:
ref_audio: ''
ref_text: ''
model: neuphonic/neutts-air-q4-gguf
device: cpu
Вариант использования 1: голосовой режим CLI
Включи его
Запускаем Гермес:
hermes
Внутри CLI:
/voice on
Ход записи
Ключ по умолчанию:
- Ctrl+B
Рабочий процесс:
1. нажмите Ctrl+B
2. говорить
3. дождитесь обнаружения тишины, чтобы автоматически остановить запись.
4. Гермес записывает и отвечает
5. если включен TTS, то проговаривается ответ
6. цикл может автоматически перезапуститься для непрерывного использования.
Полезные команды
/voice
/voice on
/voice off
/voice tts
/voice status
Хорошие рабочие процессы CLI
Непосредственная отладка
Скажите:
I keep getting a docker permission error. Help me debug it.
Затем продолжите без помощи рук: - «Прочитай последнюю ошибку еще раз» - «Объясните причину более простыми словами» - «Теперь дайте мне точное решение»
Исследования/мозговой штурм
Отлично подходит для: - гулять, думая - диктовать полусформировавшиеся идеи - попросить Гермеса структурировать ваши мысли в режиме реального времени
Доступность / сеансы с малым набором текста
Если печатать неудобно, голосовой режим — один из самых быстрых способов оставаться в курсе событий Hermes.
Настройка поведения CLI
Порог тишины
Если Гермес запускается/останавливается слишком агрессивно, настройте:
voice:
silence_threshold: 250
Более высокий порог = менее чувствителен.
Продолжительность молчания
Если вы делаете много пауз между предложениями, увеличьте:
voice:
silence_duration: 4.0
Клавиша записи
Если Ctrl+B конфликтует с вашим терминалом или привычками tmux:
voice:
record_key: "ctrl+space"
Вариант использования 2: голосовые ответы в Telegram или Discord
Этот режим проще, чем полные голосовые каналы.
Hermes остается обычным чат-ботом, но может отвечать.
Запускаем шлюз
hermes gateway
Включите голосовые ответы
Внутри Telegram или Discord:
/voice on
или
/voice tts
Режимы
| Режим | Значение |
|---|---|
off |
только текст |
voice_only |
говорить только тогда, когда пользователь отправил голос |
all |
проговаривайте каждый ответ |
Когда какой режим использовать
/voice on, если вы хотите, чтобы голосовые ответы были только на голосовые сообщения./voice tts, если вам нужен полноценный голосовой помощник все время
Хорошие рабочие процессы обмена сообщениями
Telegram-помощник в вашем телефоне
Используйте, когда: - вы находитесь вдали от своей машины - вы хотите отправлять голосовые заметки и получать быстрые устные ответы - вы хотите, чтобы Гермес функционировал как портативный исследовательский или оперативный помощник
Discord DM с голосовым выводом
Полезно, когда вы хотите конфиденциальное взаимодействие без упоминания канала сервера.
Вариант использования 3: голосовые каналы Discord
Это самый продвинутый режим.
Гермес присоединяется к Discord VC, слушает речь пользователя, расшифровывает ее, запускает обычный конвейер агента и произносит ответы обратно в канал.
Требуемые разрешения Discord
В дополнение к обычной настройке текстового бота убедитесь, что у него есть: - Подключиться - Говори - желательно использовать голосовую активность
Также включите привилегированные намерения на портале разработчиков: - Намерение присутствия - Намерение участников сервера - Цель содержания сообщения
Присоединяйтесь и уходите
В текстовом канале Discord, где присутствует бот:
/voice join
/voice leave
/voice status
Что происходит при присоединении
- пользователи говорят в ВК
- Гермес определяет границы речи
- стенограммы публикуются в соответствующем текстовом канале
- Гермес отвечает текстом и аудио
- текстовый канал - это тот, где был выдан
/voice join
Рекомендации по использованию Discord VC
- держите
DISCORD_ALLOWED_USERSкрепче - сначала используйте выделенный бот/канал тестирования
- убедитесь, что STT и TTS работают в обычном голосовом режиме текстового чата, прежде чем использовать режим VC.
Рекомендации по качеству голоса
Настройка лучшего качества
- STT: местный
large-v3или Groqwhisper-large-v3 - ТТС: ElevenLabs
Лучшая скорость/удобство настройки
- STT: местный
baseили Groq. - TTS: Край
Лучшая установка с нулевой стоимостью
- STT: местный
- TTS: Край
Распространенные режимы сбоя
"Аудиоустройство не найдено"
Установите portaudio.
"Бот подключается, но ничего не слышит"
Проверьте:
- ваш идентификатор пользователя Discord находится в DISCORD_ALLOWED_USERS
- у тебя не отключен звук
- привилегированные намерения включены
- у бота есть разрешения Connect/Speak
«Он записывает, но не говорит»
Проверьте:
- Конфигурация провайдера TTS
- API-ключ/квота для ElevenLabs или OpenAI
- ffmpeg установить для путей преобразования Edge.
"Whisper выводит мусор"
Попробуйте:
- более спокойная обстановка
- выше silence_threshold
- другой поставщик/модель STT
- более короткие и четкие высказывания
"Это работает в личных сообщениях, но не в каналах сервера"
Это часто упоминаемая политика.
По умолчанию боту требуется @mention в текстовых каналах сервера Discord, если не настроено иначе.
Рекомендуемая настройка на первую неделю
Если вы хотите кратчайший путь к успеху:
- заставить текст Гермеса работать
- установите
hermes-agent[voice] - используйте голосовой режим CLI с локальным STT + Edge TTS.
- затем включите
/voice onв Telegram или Discord. - только после этого пробуйте режим Discord VC
Благодаря такому прогрессу поверхность отладки остается небольшой.