Ideogram представила новую model для генерации изображений с текстом

Компания Ideogram анонсировала выход своей новой модели Ideogram 4.0, мощной text-to-image системы, имеющей 9,3 миллиарда параметров. Эта модель ориентирована на создание изображений с читаемым текстом и предоставляет пользователю точный контроль над композицией. Теперь каждый может попробовать Ideogram 4.0 через веб-сайт или запускать модель локально, поскольку разработчики опубликовали весы и код для инференса.

Интересно, что это первый открытый проект Ideogram, однако следует учесть, что лицензия на Hugging Face ограничивает коммерческое использование. Наличие двух версий модели — fp8 и nf4 — позволяет пользователям работать с ней на разном оборудовании.

Среди нововведений — поддержка в интерфейсе ComfyUI, что делает пользователям проще работать с моделью, не углубляясь в код. Особенно стоит отметить, что Ideogram 4.0 вводит новые структурированные JSON-промпты, позволяя более точно контролировать элементы изображения.

Модель ставит акцент на генерацию текста внутри изображений, что может быть особенно полезно для дизайнеров. Несмотря на открытые веса, перспектива коммерческого использования остается под вопросом, что делает данный релиз интересным как для исследователей, так и для сторонников некоммерческого использования.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена