OpenAI发布新图像生成功能ChatGPT Images 2.0后,一项围绕复杂人群插画生成能力展开的对比测试显示,其成图完成度优于多款竞品模型。
据Gigazine 22日报道,软件工程师Simon Willison对多款AI图像生成模型进行了“Where's Wally?”式测试,重点考察模型能否在多人、多元素的复杂画面中,自然隐藏特定目标。
此次测试使用的提示词为“在人群中寻找一只拿着业余无线电对讲机的浣熊”。测试重点并非生成一张普通插画,而是检验模型是否能够准确理解文本指令,并将目标合理融入复杂场景。
在对比中,OpenAI旧模型gpt-image-1虽然在一定程度上还原了类似风格,但细节表现不足,人物面部和肢体出现模糊或变形,“拿着对讲机的浣熊”这一关键目标也难以清晰辨认。按测试者说法,即便仔细查看画面,也很难找到目标。
Anthropic的Claude Opus 4.7也接受了同样测试,但表现差异不大。模型虽然提到画面中可能有浣熊,却无法明确识别出“拿着对讲机”的个体,显示其对复杂指令的落实能力仍有限。
Google系模型同样存在类似问题。基于Gemini的Nano Banana 2将“业余无线电俱乐部”展位放在画面中央,并在展位中加入浣熊,但未能把目标自然融入人群场景。Nano Banana Pro则直接在画面中央放置一只穿条纹衣服的大浣熊,更像是在突出主角,而不是完成“找隐藏目标”这一任务。
相比之下,ChatGPT Images 2.0的成图效果更接近测试目标。在一张3840×2160分辨率的图片中,模型将“拿着业余无线电对讲机的浣熊”自然放在画面左下角,尺寸和位置都较为合理,既没有破坏整体人群场景,也仍具备可辨识性。
Simon Willison评价称,与其他图像生成模型相比,这一结果的完成度“相当高”。他还表示,“Where's Wally?”这类复杂构图测试对模型要求更高,但也更能检验文本指令能否被准确转化为视觉结构。
与此同时,此次测试还披露了成本信息:生成上述图片共使用约13342个输出Token,单张成本约为0.4美元。
从此次对比结果来看,AI图像生成的竞争重点正从单纯的画质和风格还原,转向能否将复杂指令准确落实到场景结构之中。尤其是在多对象、多人物的复杂画面里,如何自然安置特定元素,正在成为新的评价维度。