OpenAI推出新一代图像生成模型Image 2.0。图片来源:OpenAI

OpenAI推出新一代图像生成模型Image 2.0,进一步提升了生成图片中的文字渲染能力。

据TechCrunch等外媒当地时间21日报道,Image 2.0重点改善了过往图像生成模型在文字拼写、文本布局等方面的不足。此前,基于扩散模型的生成式AI在处理菜单、海报等含文字内容较多的图片时,常出现拼写错误、文字排列不自然,甚至生成不存在词语的情况。外界评价认为,在类似提示词下,Image 2.0的部分输出结果已接近人工制作水准。

OpenAI未在简报中披露该模型的具体架构,但表示新模型引入了“推理”能力,支持网页搜索、多图生成和结果校验等功能。借助这些能力,用户不仅可以生成适配不同尺寸的营销素材,也可制作多画面的漫画内容。

在文字覆盖能力方面,Image 2.0进一步扩大了支持范围。OpenAI称,模型对日语、韩语、印地语、孟加拉语等非拉丁文字的理解和渲染准确度明显提升,这将有助于提升其在海报、告示、UI设计等对文字和排版要求较高场景中的可用性。不过,该模型的知识库更新截至2025年12月,因此在涉及最新新闻或事件的请求中,准确度可能有所下降。

OpenAI在新闻稿中表示,Image 2.0可提供“前所未有的具体性与保真度”。公司称,该模型最高支持2K输出,能够更清晰地呈现小字号文字、图标和UI元素,并在复杂构图及细致风格约束下保持更稳定的一致性表现。

不过,能力提升也伴随着生成速度上的取舍。新模型难以实现即时生成,但对于复杂的多分镜图像,仍可在数分钟内完成输出。

业内也在关注图像生成AI的技术路线变化。2024年,Lesan AI首席执行官Asmelash Teka Hadgu曾表示,扩散模型主要通过重建输入内容生成结果,因此更倾向于学习整体像素模式,而非图像中的文字等细小元素。此后,研究人员也开始尝试采用类似大语言模型的自回归图像生成方案。

在服务开放范围上,OpenAI也同步扩大了覆盖面。自22日起,所有ChatGPT和Codex用户均可使用Image 2.0,其中付费用户可获得更高质量的输出结果。与此同时,公司还推出了“gpt-image-2” API,定价将根据输出质量和分辨率有所不同。

随着文字渲染和细粒度控制能力提升,Image 2.0的应用范围也有望从基础图片生成,进一步拓展至文档类图片、营销素材和UI Mockup等更依赖文字精度的场景。

关键词

#OpenAI #ChatGPT #Image 2.0 #图像生成模型 #文字渲染 #2K输出 #UI设计 #海报 #gpt-image-2 API #Codex
版权所有 © DigitalToday。未经授权禁止转载或传播。