title: Image Generation
description: Generate images via FAL.ai — 9 models including FLUX 2, GPT Image (1.5 & 2), Nano Banana Pro, Ideogram, Recraft V4 Pro, and more, selectable via hermes tools.
sidebar_label: Image Generation
sidebar_position: 6
lang: ru
Генерация изображения
Агент Hermes генерирует изображения из текстовых подсказок через FAL.ai. «Из коробки» поддерживаются девять моделей, каждая из которых имеет различное соотношение скорости, качества и стоимости. Активная модель настраивается пользователем через hermes tools и сохраняется в config.yaml.
Поддерживаемые модели
| Модель | Скорость | Сильные стороны | Цена |
|---|---|---|---|
fal-ai/flux-2/klein/9b (по умолчанию) |
<1s |
Быстрый, четкий текст | 0,006 долл. США/МП |
fal-ai/flux-2-pro |
~6 с | Студия фотореализма | 0,03 доллара США за МП |
fal-ai/z-image/turbo |
~2 с | Двуязычный EN/CN, параметры 6B | 0,005 долл. США/МП |
fal-ai/nano-banana-pro |
~8 с | Gemini 3 Pro, глубина рассуждений, рендеринг текста | 0,15 доллара США за изображение (1 КБ) |
fal-ai/gpt-image-1.5 |
~15 с | Быстрое соблюдение | $0,034/изображение |
fal-ai/gpt-image-2 |
~20 с | Рендеринг текста SOTA + CJK, всемирно признанный фотореализм | $0,04–0,06/изображение |
fal-ai/ideogram/v3 |
~5 с | Лучшая типографика | 0,03–0,09 $/изображение |
fal-ai/recraft/v4/pro/text-to-image |
~8 с | Проектирование, фирменные системы, готовые к производству | 0,25 доллара США за изображение |
fal-ai/qwen-image |
~12 с | Сложный текст на основе LLM | 0,02 доллара США за МП |
Цены указаны FAL на момент написания; проверьте fal.ai на наличие текущих номеров.
Настройка
💡 Tip
Подписчики Если у вас есть платная подписка на [Nous Portal](https://portal.nousresearch.com), вы можете использовать генерацию изображений через **[Tool Gateway](tool-gateway.md)** без ключа FAL API. Выбор модели сохраняется в обоих случаях. Если управляемый шлюз возвращает `HTTP 4xx` для конкретной модели, эта модель еще не проксирована на стороне портала — агент сообщит вам об этом, указав шаги по исправлению (задайте `FAL_KEY` для прямого доступа или выберите другую модель).Получите ключ API FAL
- Зарегистрируйтесь на fal.ai
- Создайте ключ API на своей панели управления.
Настройте и выберите модель
Запустите команду инструментов:
hermes tools
Перейдите к 🎨 Генерация изображений, выберите серверную часть (Nous Subscription или FAL.ai), затем средство выбора отобразит все поддерживаемые модели в таблице с выравниванием по столбцам — клавиши со стрелками для навигации, Enter для выбора:
Model Speed Strengths Price
fal-ai/flux-2/klein/9b <1s Fast, crisp text $0.006/MP ← currently in use
fal-ai/flux-2-pro ~6s Studio photorealism $0.03/MP
fal-ai/z-image/turbo ~2s Bilingual EN/CN, 6B $0.005/MP
...
Ваш выбор сохраняется в config.yaml:
image_gen:
model: fal-ai/flux-2/klein/9b
use_gateway: false # true if using Nous Subscription
Качество изображения GPT
Качество запроса fal-ai/gpt-image-1.5 и fal-ai/gpt-image-2 привязано к medium (~0,034–0,06 доллара США за изображение при разрешении 1024×1024). Мы не предоставляем уровни low / high как вариант, ориентированный на пользователя, чтобы выставление счетов Nous Portal оставалось предсказуемым для всех пользователей — разброс затрат между уровнями составляет 3–22×. Если вам нужен более дешевый вариант, выберите Klein 9B или Z-Image Turbo; если вы хотите более высокое качество, используйте Nano Banana Pro или Recraft V4 Pro.
Использование
Схема, ориентированная на агента, намеренно минимальна — модель подхватывает все, что вы настроили:
Generate an image of a serene mountain landscape with cherry blossoms
Create a square portrait of a wise old owl — use the typography model
Make me a futuristic cityscape, landscape orientation
Соотношения сторон
Каждая модель принимает одни и те же три соотношения сторон с точки зрения агента. Внутренняя спецификация размера каждой модели заполняется автоматически:
| Ввод агента | image_size (flux/z-image/qwen/recraft/ideogram) | аспектное соотношение (нано-банан-про) | размер_изображения (gpt-image-1.5) | размер_изображения (gpt-изображение-2) |
|---|---|---|---|---|
landscape |
landscape_16_9 |
16:9 |
1536x1024 |
landscape_4_3 (1024×768) |
square |
square_hd |
1:1 |
1024x1024 |
square_hd (1024×1024) |
portrait |
portrait_16_9 |
9:16 |
1024x1536 |
portrait_4_3 (768×1024) |
Изображение GPT 2 сопоставляется с предустановками формата 4:3, а не 16:9, поскольку его минимальное количество пикселей составляет 655 360 — предустановка landscape_16_9 (1024×576 = 589 824) будет отклонена.
Этот перевод происходит в _build_fal_payload() — коду агента никогда не нужно знать о различиях в схеме каждой модели.
Автоматическое масштабирование
Повышение разрешения с помощью Clarity Upscaler от FAL зависит от модели:
| Модель | Высококлассный? | Почему |
|---|---|---|
fal-ai/flux-2-pro |
✓ | Обратная совместимость (была по умолчанию при предварительном выборе) |
| Все остальные | ✗ | Быстрые модели потеряют свою ценность менее секунды; моделям высокого разрешения это не нужно |
При запуске масштабирования используются следующие настройки:
| Настройка | Значение |
|---|---|
| Высококлассный фактор | 2× |
| Творчество | 0,35 |
| Сходство | 0,6 |
| Шкала руководства | 4 |
| Шаги вывода | 18 |
Если масштабирование не удалось (проблема с сетью, ограничение скорости), исходное изображение возвращается автоматически.
Как это работает внутри
- Разрешение модели —
_resolve_fal_model()читаетimage_gen.modelизconfig.yaml, возвращается к переменной envFAL_IMAGE_MODEL, а затем кfal-ai/flux-2/klein/9b. - Создание полезных данных —
_build_fal_payload()преобразует вашaspect_ratioв собственный формат модели (предустановленное перечисление, перечисление соотношения сторон или литерал GPT), объединяет параметры модели по умолчанию, применяет любые переопределения вызывающего объекта, затем фильтрует его в белый списокsupportsмодели, чтобы неподдерживаемые ключи никогда не отправлялись. - Отправка —
_submit_fal_request()направляется через прямые учетные данные FAL или управляемый шлюз Nous. - Апскейлинг — работает только в том случае, если метаданные модели имеют
upscale: True. - Доставка — URL-адрес конечного изображения, возвращаемый агенту, который генерирует тег
MEDIA:<url>, который адаптеры платформы преобразуют в собственный носитель.
Отладка
Включите ведение журнала отладки:
export IMAGE_TOOLS_DEBUG=true
Журналы отладки передаются по адресу ./logs/image_tools_debug_<session_id>.json с подробностями каждого вызова (модель, параметры, время, ошибки).
Доставка платформы
| Платформа | Доставка |
|---|---|
| CLI | URL-адрес изображения напечатан как уценка  — нажмите, чтобы открыть |
| Телеграмма | Фотосообщение с подсказкой в подписи |
| Раздор | Вставлено в сообщение |
| Слабость | URL-адрес, развернутый Slack |
| Media message | |
| Другие | URL-адрес в виде обычного текста |
Ограничения
- Требуются учетные данные FAL (прямо
FAL_KEYили подписка Nous) - Только преобразование текста в изображение — без рисования, img2img или редактирования с помощью этого инструмента.
- Временные URL-адреса — FAL возвращает размещенные URL-адреса, срок действия которых истекает через несколько часов/дней; сохраните локально, если необходимо
- Ограничения для каждой модели — некоторые модели не поддерживают
seed,num_inference_stepsи т. д. Фильтрsupportsавтоматически удаляет неподдерживаемые параметры; это ожидаемое поведение