OpenAI推出图像生成模型Image 2.0：强化文字渲染，拓展至海报和UI设计场景

OpenAI推出新一代图像生成模型Image 2.0，进一步提升了生成图片中的文字渲染能力。

据TechCrunch等外媒当地时间21日报道，Image 2.0重点改善了过往图像生成模型在文字拼写、文本布局等方面的不足。此前，基于扩散模型的生成式AI在处理菜单、海报等含文字内容较多的图片时，常出现拼写错误、文字排列不自然，甚至生成不存在词语的情况。外界评价认为，在类似提示词下，Image 2.0的部分输出结果已接近人工制作水准。

OpenAI未在简报中披露该模型的具体架构，但表示新模型引入了“推理”能力，支持网页搜索、多图生成和结果校验等功能。借助这些能力，用户不仅可以生成适配不同尺寸的营销素材，也可制作多画面的漫画内容。

在文字覆盖能力方面，Image 2.0进一步扩大了支持范围。OpenAI称，模型对日语、韩语、印地语、孟加拉语等非拉丁文字的理解和渲染准确度明显提升，这将有助于提升其在海报、告示、UI设计等对文字和排版要求较高场景中的可用性。不过，该模型的知识库更新截至2025年12月，因此在涉及最新新闻或事件的请求中，准确度可能有所下降。

OpenAI在新闻稿中表示，Image 2.0可提供“前所未有的具体性与保真度”。公司称，该模型最高支持2K输出，能够更清晰地呈现小字号文字、图标和UI元素，并在复杂构图及细致风格约束下保持更稳定的一致性表现。

不过，能力提升也伴随着生成速度上的取舍。新模型难以实现即时生成，但对于复杂的多分镜图像，仍可在数分钟内完成输出。

业内也在关注图像生成AI的技术路线变化。2024年，Lesan AI首席执行官Asmelash Teka Hadgu曾表示，扩散模型主要通过重建输入内容生成结果，因此更倾向于学习整体像素模式，而非图像中的文字等细小元素。此后，研究人员也开始尝试采用类似大语言模型的自回归图像生成方案。

在服务开放范围上，OpenAI也同步扩大了覆盖面。自22日起，所有ChatGPT和Codex用户均可使用Image 2.0，其中付费用户可获得更高质量的输出结果。与此同时，公司还推出了“gpt-image-2” API，定价将根据输出质量和分辨率有所不同。

随着文字渲染和细粒度控制能力提升，Image 2.0的应用范围也有望从基础图片生成，进一步拓展至文档类图片、营销素材和UI Mockup等更依赖文字精度的场景。

Seung-a Yoo ysah@d-today.co.kr

关键词