OpenAIが公開した画像生成機能「ChatGPT Images 2.0」が、複雑な群衆シーンの生成テストで競合モデルを上回る仕上がりを示した。ソフトウェアエンジニアのSimon Willison氏が実施した比較では、「ウォーリーをさがせ!」風のイラスト内に無線機を持つアライグマを自然に紛れ込ませられるかが検証対象となった。
GIGAZINEが4月22日付で報じたところによると、Willison氏は複数の画像生成AIを使い、「ウォーリーをさがせ!」を模した構図の画像生成を試した。与えたプロンプトは、群衆の中にいるアマチュア無線機を持ったアライグマを探す場面で、多数の人物や要素が入り組む中でも特定の対象を自然に描き込めるかを見極める狙いがあった。
まず、OpenAIの既存モデル「gpt-image-1」は、全体の雰囲気こそ原作に近づけたものの、細部の表現には課題が残った。人物の顔や体の描写が崩れ、条件となる「無線機を持つアライグマ」も明確には判別しにくかったという。
AnthropicのClaude Opus 4.7も画像分析に用いられたが、結果は大きく変わらなかった。アライグマが描かれている可能性には触れた一方で、無線機を持つ個体を特定することはできなかった。生成そのものだけでなく、出力画像の読み取りという面でも限界を示した格好だ。
Google系のモデルも同様の課題を抱えた。Geminiベースの「Nano Banana 2」は、画面中央に「アマチュア無線クラブ」のブースを配置し、その中にアライグマを登場させたが、群衆に自然に溶け込ませることはできなかった。「Nano Banana Pro」では、縞模様の服を着た大きなアライグマが中央に置かれ、隠し絵というより主役を強調した構図になったという。
これに対し、ChatGPT Images 2.0は異なる結果を示した。3840×2160ピクセルで生成した画像では、アマチュア無線機を持つアライグマを画面左下に自然に配置。周囲の人物とのサイズ感も不自然ではなく、群衆シーンの文脈を崩さないまま、「探して見つける」体験が成立するレベルに仕上がったとされる。
Willison氏は、ChatGPT Images 2.0について「他の画像生成AIと比べてかなり完成度が高い」と評価した。「ウォーリーをさがせ!」のような複雑な構図はモデルの性能を測るうえで難度が高い一方、テキスト指示をどこまで精緻に視覚構造へ落とし込めるかを確かめるのに有効だとも指摘している。
生成コストも明らかになった。画像1枚の生成に使われた出力トークンは約1万3342で、1枚当たりの費用は約0.4ドルだった。
今回の比較は、画像生成AIの競争軸が単純な画質やスタイル再現を超え、複雑な指示をどこまで正確にシーンへ反映できるかに移りつつあることを示している。多数の人物やオブジェクトが入り交じる場面で、特定の要素を自然に配置する能力が新たな評価基準として浮上する中、OpenAIの最新モデルが初期段階で優位性を示したとの見方が出ている。