В разделе Новости корпораций

ChatGPT Images 2.0 научилась рисовать иероглифы и «думать» над схемами

OpenAI представила новую модель ChatGPT Images 2.0, способную генерировать изображения в разрешении 2K с корректным текстом и сложной графикой. Главным обновлением стал режим «размышления», в котором нейросеть анализирует данные из интернета перед отрисовкой, чтобы точнее передавать актуальные события и детализированные инструкции.

ChatGPT Images 2.0 научилась рисовать иероглифы и «думать» над схемами

OpenAI представила новую модель ChatGPT Images 2.0, способную генерировать изображения в разрешении 2K с корректным текстом и сложной графикой. Главным обновлением стал режим «размышления», в котором нейросеть анализирует данные из интернета перед отрисовкой, чтобы точнее передавать актуальные события и детализированные инструкции.

Обновление Images 2.0 фокусируется на точности мелких деталей, которые раньше были слабым местом генеративных моделей. Теперь ChatGPT справляется с отрисовкой иконок, плакатов и даже комиксов, поддерживая не только латиницу, но и сложные восточные шрифты — от японских иероглифов до бенгальской вязи. Руководитель продуктовой команды Адель Ли рассчитывает, что инструмент станет востребован в науке и образовании, где критически важна четкость схем и сопроводительного текста.

Для платных подписчиков стал доступен режим thinking, в котором нейросеть создает до восьми вариантов изображения за раз. Если запрос касается недавних новостей, модель сначала ищет информацию в сети, используя найденные кадры как референсы. Это позволяет избежать «галлюцинаций» при визуализации событий, которые произошли после завершения обучения базовой версии алгоритма. Так нейросеть может подготовить страницу комикса или эскиз интерьера, опираясь на актуальные визуальные тренды.

Несмотря на прогресс, разработчики признают ограничения в работе с микрообъектами и сверхсложной логикой. Модель всё еще путается в пошаговых схемах сборки оригами и плохо детализирует текстуры вроде песка или крупы. Схемы со множеством стрелок также требуют ручной правки. На рынке визуальных нейросетей сохраняется высокая конкуренция: пока OpenAI работает над текстом, Midjourney исправляет анатомические ошибки, а Google наращивает аудиторию Gemini за счет удобного голосового редактирования объектов прямо в чате. Свой ответ готовит и Meta, планируя релиз мультимодальной модели Mango к 2026 году.

Поделиться:в TelegramВКонтактев Одноклассниках

Подпишитесь на рассылку

Раз в неделю — лучшие материалы редакции, без рекламы и пушей. Письмо приходит в воскресенье утром.

Комментарии (0)

Оставить комментарий

Пока нет комментариев. Будьте первым!