Сбер представил новую модель генерации изображений по тексту Kandinsky 4.1 Image.
Для нейрохудожников появился AI-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет редактировать изображение, следуя текстовым инструкциям.
В основе новой версии модели генерации изображений Kandinsky лежит обновленная архитектура — теперь это диффузионный трансформер (DiT). Модель Kandinsky 4.1 Image была дополнительно дообучена на отобранных вручную изображениях, сбалансированных по 9 метакатегориям (люди, техника, природа и другие). Отбором этих качественных данных занималась команда, состоящая более чем из 100 специалистов.
Модель понимает стили известных художников — Айвазовского, Босха, Кранаха, Кандинского и других. Кроме того, пользователь может создавать изображения в произвольных художественных стилях от импрессионизма до поп-арта или же генерировать изображения, например, в стиле известной анимационной Studio Ghibli.
Интеграция телеграм-бота GigaChat с AI-редактором MALVINA открыла любому пользователю возможность редактировать любые изображения.