title: Image Generation description: Generate images via FAL.ai — 9 models including FLUX 2, GPT Image (1.5 & 2), Nano Banana Pro, Ideogram, Recraft V4 Pro, and more, selectable via hermes tools. sidebar_label: Image Generation sidebar_position: 6 lang: ru


Генерация изображения

Агент Hermes генерирует изображения из текстовых подсказок через FAL.ai. «Из коробки» поддерживаются девять моделей, каждая из которых имеет различное соотношение скорости, качества и стоимости. Активная модель настраивается пользователем через hermes tools и сохраняется в config.yaml.

Поддерживаемые модели

Модель Скорость Сильные стороны Цена
fal-ai/flux-2/klein/9b (по умолчанию) <1s Быстрый, четкий текст 0,006 долл. США/МП
fal-ai/flux-2-pro ~6 с Студия фотореализма 0,03 доллара США за МП
fal-ai/z-image/turbo ~2 с Двуязычный EN/CN, параметры 6B 0,005 долл. США/МП
fal-ai/nano-banana-pro ~8 с Gemini 3 Pro, глубина рассуждений, рендеринг текста 0,15 доллара США за изображение (1 КБ)
fal-ai/gpt-image-1.5 ~15 с Быстрое соблюдение $0,034/изображение
fal-ai/gpt-image-2 ~20 с Рендеринг текста SOTA + CJK, всемирно признанный фотореализм $0,04–0,06/изображение
fal-ai/ideogram/v3 ~5 с Лучшая типографика 0,03–0,09 $/изображение
fal-ai/recraft/v4/pro/text-to-image ~8 с Проектирование, фирменные системы, готовые к производству 0,25 доллара США за изображение
fal-ai/qwen-image ~12 с Сложный текст на основе LLM 0,02 доллара США за МП

Цены указаны FAL на момент написания; проверьте fal.ai на наличие текущих номеров.

Настройка

💡 Tip

Подписчики Если у вас есть платная подписка на [Nous Portal](https://portal.nousresearch.com), вы можете использовать генерацию изображений через **[Tool Gateway](tool-gateway.md)** без ключа FAL API. Выбор модели сохраняется в обоих случаях. Если управляемый шлюз возвращает `HTTP 4xx` для конкретной модели, эта модель еще не проксирована на стороне портала — агент сообщит вам об этом, указав шаги по исправлению (задайте `FAL_KEY` для прямого доступа или выберите другую модель).

Получите ключ API FAL

  1. Зарегистрируйтесь на fal.ai
  2. Создайте ключ API на своей панели управления.

Настройте и выберите модель

Запустите команду инструментов:

hermes tools

Перейдите к 🎨 Генерация изображений, выберите серверную часть (Nous Subscription или FAL.ai), затем средство выбора отобразит все поддерживаемые модели в таблице с выравниванием по столбцам — клавиши со стрелками для навигации, Enter для выбора:

  Model                          Speed    Strengths                    Price
  fal-ai/flux-2/klein/9b         <1s      Fast, crisp text             $0.006/MP   ← currently in use
  fal-ai/flux-2-pro              ~6s      Studio photorealism          $0.03/MP
  fal-ai/z-image/turbo           ~2s      Bilingual EN/CN, 6B          $0.005/MP
  ...

Ваш выбор сохраняется в config.yaml:

image_gen:
  model: fal-ai/flux-2/klein/9b
  use_gateway: false            # true if using Nous Subscription

Качество изображения GPT

Качество запроса fal-ai/gpt-image-1.5 и fal-ai/gpt-image-2 привязано к medium (~0,034–0,06 доллара США за изображение при разрешении 1024×1024). Мы не предоставляем уровни low / high как вариант, ориентированный на пользователя, чтобы выставление счетов Nous Portal оставалось предсказуемым для всех пользователей — разброс затрат между уровнями составляет 3–22×. Если вам нужен более дешевый вариант, выберите Klein 9B или Z-Image Turbo; если вы хотите более высокое качество, используйте Nano Banana Pro или Recraft V4 Pro.

Использование

Схема, ориентированная на агента, намеренно минимальна — модель подхватывает все, что вы настроили:

Generate an image of a serene mountain landscape with cherry blossoms
Create a square portrait of a wise old owl — use the typography model
Make me a futuristic cityscape, landscape orientation

Соотношения сторон

Каждая модель принимает одни и те же три соотношения сторон с точки зрения агента. Внутренняя спецификация размера каждой модели заполняется автоматически:

Ввод агента image_size (flux/z-image/qwen/recraft/ideogram) аспектное соотношение (нано-банан-про) размер_изображения (gpt-image-1.5) размер_изображения (gpt-изображение-2)
landscape landscape_16_9 16:9 1536x1024 landscape_4_3 (1024×768)
square square_hd 1:1 1024x1024 square_hd (1024×1024)
portrait portrait_16_9 9:16 1024x1536 portrait_4_3 (768×1024)

Изображение GPT 2 сопоставляется с предустановками формата 4:3, а не 16:9, поскольку его минимальное количество пикселей составляет 655 360 — предустановка landscape_16_9 (1024×576 = 589 824) будет отклонена.

Этот перевод происходит в _build_fal_payload() — коду агента никогда не нужно знать о различиях в схеме каждой модели.

Автоматическое масштабирование

Повышение разрешения с помощью Clarity Upscaler от FAL зависит от модели:

Модель Высококлассный? Почему
fal-ai/flux-2-pro Обратная совместимость (была по умолчанию при предварительном выборе)
Все остальные Быстрые модели потеряют свою ценность менее секунды; моделям высокого разрешения это не нужно

При запуске масштабирования используются следующие настройки:

Настройка Значение
Высококлассный фактор
Творчество 0,35
Сходство 0,6
Шкала руководства 4
Шаги вывода 18

Если масштабирование не удалось (проблема с сетью, ограничение скорости), исходное изображение возвращается автоматически.

Как это работает внутри

  1. Разрешение модели_resolve_fal_model() читает image_gen.model из config.yaml, возвращается к переменной env FAL_IMAGE_MODEL, а затем к fal-ai/flux-2/klein/9b.
  2. Создание полезных данных_build_fal_payload() преобразует ваш aspect_ratio в собственный формат модели (предустановленное перечисление, перечисление соотношения сторон или литерал GPT), объединяет параметры модели по умолчанию, применяет любые переопределения вызывающего объекта, затем фильтрует его в белый список supports модели, чтобы неподдерживаемые ключи никогда не отправлялись.
  3. Отправка_submit_fal_request() направляется через прямые учетные данные FAL или управляемый шлюз Nous.
  4. Апскейлинг — работает только в том случае, если метаданные модели имеют upscale: True.
  5. Доставка — URL-адрес конечного изображения, возвращаемый агенту, который генерирует тег MEDIA:<url>, который адаптеры платформы преобразуют в собственный носитель.

Отладка

Включите ведение журнала отладки:

export IMAGE_TOOLS_DEBUG=true

Журналы отладки передаются по адресу ./logs/image_tools_debug_<session_id>.json с подробностями каждого вызова (модель, параметры, время, ошибки).

Доставка платформы

Платформа Доставка
CLI URL-адрес изображения напечатан как уценка ![](url) — нажмите, чтобы открыть
Телеграмма Фотосообщение с подсказкой в ​​подписи
Раздор Вставлено в сообщение
Слабость URL-адрес, развернутый Slack
WhatsApp Media message
Другие URL-адрес в виде обычного текста

Ограничения