OpenAI推ChatGPT Images 2.0：复杂人群插画测试中表现突出

OpenAI发布新图像生成功能ChatGPT Images 2.0后，一项围绕复杂人群插画生成能力展开的对比测试显示，其成图完成度优于多款竞品模型。

据Gigazine 22日报道，软件工程师Simon Willison对多款AI图像生成模型进行了“Where's Wally?”式测试，重点考察模型能否在多人、多元素的复杂画面中，自然隐藏特定目标。

此次测试使用的提示词为“在人群中寻找一只拿着业余无线电对讲机的浣熊”。测试重点并非生成一张普通插画，而是检验模型是否能够准确理解文本指令，并将目标合理融入复杂场景。

在对比中，OpenAI旧模型gpt-image-1虽然在一定程度上还原了类似风格，但细节表现不足，人物面部和肢体出现模糊或变形，“拿着对讲机的浣熊”这一关键目标也难以清晰辨认。按测试者说法，即便仔细查看画面，也很难找到目标。

Anthropic的Claude Opus 4.7也接受了同样测试，但表现差异不大。模型虽然提到画面中可能有浣熊，却无法明确识别出“拿着对讲机”的个体，显示其对复杂指令的落实能力仍有限。

Google系模型同样存在类似问题。基于Gemini的Nano Banana 2将“业余无线电俱乐部”展位放在画面中央，并在展位中加入浣熊，但未能把目标自然融入人群场景。Nano Banana Pro则直接在画面中央放置一只穿条纹衣服的大浣熊，更像是在突出主角，而不是完成“找隐藏目标”这一任务。

相比之下，ChatGPT Images 2.0的成图效果更接近测试目标。在一张3840×2160分辨率的图片中，模型将“拿着业余无线电对讲机的浣熊”自然放在画面左下角，尺寸和位置都较为合理，既没有破坏整体人群场景，也仍具备可辨识性。

Simon Willison评价称，与其他图像生成模型相比，这一结果的完成度“相当高”。他还表示，“Where's Wally?”这类复杂构图测试对模型要求更高，但也更能检验文本指令能否被准确转化为视觉结构。

与此同时，此次测试还披露了成本信息：生成上述图片共使用约13342个输出Token，单张成本约为0.4美元。

从此次对比结果来看，AI图像生成的竞争重点正从单纯的画质和风格还原，转向能否将复杂指令准确落实到场景结构之中。尤其是在多对象、多人物的复杂画面里，如何自然安置特定元素，正在成为新的评价维度。

Jinju Hong hongjj@d-today.co.kr