Задача Изучить какие модели лучше генерируют макеты и инфографику
Изучить какие модели лучше генерируют макеты и инфографику
Нужна возможность генерировать как макеты в целом, так и отдельные элементы и компоненты. Так же нужны инфографика с текстами, потому что тексты - это проблемная в генерации картинок. Но вроде последняя Квен этим кичилась.
Ворклоги
У black-forest-labs/flux.2-pro прям все очень плохо с текстами и шрифтами )))

Судя по всему найти подходящую модель локальную для этого крайне сложно. На сколько я понимаю, обычно приходится специально под конечный задачи готовить модели, LoRa доучивать и т.п. Так же сильно упрощает процесс наличие готовых референсов. Но мне сейчас хочется именно по описанию сайта и его функционала получать макеты, потому что в том же lovable это довольно долго делается.
Добавил в haih-agent вот такой интерфейс для генерации картинок с возможностью выбора модели, качества и пропорций

Он заточен под openrouter, поэтому дает доступ сразу к многим моделям.
Я в чатгпт скормил текст с главной страницы своего сайта и попросил написать промпт для генератора картинок, чтобы можно было поиграться и посмотреть что из этого получится лучше. Но так как моделей несколько и не хочется ждать кажду в отдельности, чтобы потом сравнивать результат, немного допишу интерфейс, чтобы можно было за раз выбрать сразу несколько моделей и отправить параллельно несколько запросов и посмотреть потом все результаты.
Вот такой вот у меня получился черновой интерфейс с множественным выбором моделей


А теперь попробуем все этим модели с одним промптом запустить:
Современный сайт инженера-исследователя.
Это не блог и не портфолио.
Это публичный журнал инженерной деятельности, в котором отображаются текущие исследования, проекты, задачи, рабочие заметки и ход разработки в режиме реального времени.
Главный герой сайта — Николай Ланец, инженер-исследователь в области искусственного интеллекта, агентных систем, архитектур памяти и графов знаний.
Стиль:
* светлая тема (но не обязательно белая)
* премиальный технологический дизайн
* эстетика исследовательской лаборатории
* сочетание GitHub, Linear, Notion, Stripe и современных AI-платформ
* минимализм без пустого пространства (но без сильной концентрации элементов)
* средняя плотность информации
* качественная типографика
* аккуратные карточки
* строгая визуальная иерархия
* ощущение работающей инженерной системы
Главный экран:
Крупное имя:
Николай Ланец
Подзаголовок:
инженер-исследователь
Описание:
Публичный журнал проектов, задач, исследований и инженерных решений.
Отдельный блок:
доступен для новых задач
Рядом показать основные направления исследований:
* Agent Systems
* AI Research
* Memory Architectures
* Knowledge Graphs
Ниже разместить несколько секций в виде современной панели управления исследовательской деятельностью.
Секция «Активные проекты»:
карточки проектов со статусами, датами начала и кратким описанием.
Секция «Активные задачи»:
исследовательские и инженерные задачи, отображённые как рабочий бэклог.
Секция «Последние ворклоги»:
лента последних инженерных действий и принятых решений.
Секция загрузки:
количество коммерческих задач, количество личных исследований и текущие обязательства.
Визуальное впечатление:
Не персональный сайт.
Не блог.
Не портфолио.
Это операционная система исследователя, открытая для публичного просмотра.
Очень высокий уровень UI/UX.
Качество как у лучших SaaS-продуктов 2026 года.
Макет интерфейса из Figma.
Полноценный desktop web application.
Еще раз уточню, что это чатгпт его составил на основании текста с главной страницы моего сайта, я только чуть-чуть подправил. Интересно, какие модели какой дизайн и за сколько сделают.
Вот первые результаты.
Gemini3_1_Flash_Image. Стоимость $0.104

BYTEDANCE_SEED_SEEDREAM_4_5. $0.116

GOOGLE_GEMINI_3_PRO_IMAGE_PREVIEW. $0.145

Gemini2_5_Flash_Image. $0.039

OPENAI_GPT_5_4_IMAGE_2. $0.341

Вот еще результаты.
Gemini3_1_Flash_Image. $0.07

BLACK_FOREST_LABS_FLUX_2_KLEIN_4B. $0.016

BLACK_FOREST_LABS_FLUX_2_PRO. $0.06

BLACK_FOREST_LABS_FLUX_2_MAX. $0.13

black-forest-labs/flux.2-max очень долго думает, прям по несколько минут (5-10, может и дольше).