Apple показала модель ИИ для редактирования фото по текстовым подсказкам

. Искусственный интеллект умеет делать забавные вещи

Apple выпустила модель ИИ для редактирования изображений по словам-подсказкам

Обновлено 21 марта 2024, 10:15
Shutterstock
Фото: Shutterstock

Американская компания Apple продемонстрировала свои возможности в области искусственного интеллекта (ИИ) с новой открытой моделью MLLM-Guided Image Editing (MGIE) для редактирования изображений. Об этом сообщил VentureBeat.

MGIE — результат сотрудничества Apple и исследователей из Калифорнийского университета в Санта-Барбаре. Модель была представлена на Международной конференции по машинному обучению (The International Conference on Learning Representations, ICLR 2024).

Модель использует мультимодальные модели больших языков (MLLM), чтобы интерпретировать текстовые команды при редактировании изображений. То есть пользователю достаточно словами объяснить модели, что он хочет улучшить на снимках: обрезать, изменить размер, повернуть, добавить фильтры, скорректировать яркость. С помощью текстовых подсказок MGIE все сделает сама. Человеку в технические нюансы программ редактирования вникать не придется.

Сначала модель переводит на свой машинный язык подсказки пользователя, а затем «воображает», как будет выглядеть результат (например, запрос на более синее небо на фотографии приводит к увеличению яркости части изображения с небом).

При редактировании фотографии с помощью MGIE пользователям просто нужно ввести то, что они хотят изменить в изображении. В статье приведен пример с пиццей пепперони. Подсказки «сделай это более здоровым» навела ИИ на мысль добавить на фото больше овощных начинок. Фотография тигров в Сахаре выглядит темной, но после того, как модели сказали «имитировать больше света», изображение стало ярче.

<p>Скриншот из научной работы о функциях MGIE</p>
Фото: arxiv.org

Скриншот из научной работы о функциях MGIE

MGIE доступен на GitHub, где пользователи могут найти предварительно обученные модели и инструкцию, как использовать ИИ для различных задач редактирования.

Apple не является крупным игроком в области генеративного искусственного интеллекта, в отличие от Microsoft, Meta или Google, но генеральный директор «яблочной» компании Тим Кук заявил, что Apple хочет добавить больше функций искусственного интеллекта в свои устройства в этом году, приводит его слова The Verge.

Некоторые платформы создания изображений, такие как DALL-E 3 от OpenAI, могут выполнять простые задачи редактирования фотографий с помощью текстовых подсказок. Создатель популярной программы Photoshop Adobe, которой многие пользуются для редактирования изображений, также имеет собственную модель редактирования на основе ИИ. Его модель Firefly AI умеет добавлять к фотографиям сгенерированный фон.

Поделиться