OpenAI、画像生成モデル「Image 2.0」公開　文書画像やUIモックアップ制作に対応

OpenAIは21日（現地時間）、ChatGPT向けの新たな画像生成モデル「Image 2.0」を公開した。文字表現を大幅に強化し、最大2K解像度で小さな文字やアイコン、UI要素まで高精度に再現できるという。22日からChatGPTとCodexの全ユーザーに提供し、有料ユーザーはより高品質な出力を利用できる。

TechCrunchなどによると、Image 2.0は従来の画像生成モデルの弱点とされてきたテキスト処理を大きく改善した。これまで拡散モデルベースの画像生成AIでは、スペルミスや不自然な文字配置が起きやすかった。

従来は、レストランのメニュー画像を生成すると実在しない料理名や誤ったスペルが混在するケースも珍しくなかった。これに対しImage 2.0は、同様の指示でも人が作成した制作物に近い水準の画像を出力できるとされる。

OpenAIは説明会で、モデル構造の詳細は明らかにしなかった。一方で、新モデルには「思考能力」を取り入れ、ウェブ検索や複数画像の生成、結果の検証が可能だと説明した。

これにより、サイズ違いのマーケティング素材を複数案まとめて作成したり、複数コマの漫画を制作したりといった用途にも対応できるとしている。

文字処理の対象言語も広げた。日本語、韓国語、ヒンディー語、ベンガル語など、非ラテン文字の理解とレンダリング精度が大きく向上したという。

このため、ポスターや案内文、UI案のように文字の正確さや配置精度が重要な用途で活用しやすくなる見込みだ。ただし、モデルが持つ知識の基準時点は2025年12月までで、最新のニュースや出来事を反映する必要がある依頼では精度が下がる可能性がある。

OpenAIはリリースで、Image 2.0が「前例のない水準の具体性と忠実度」を実現すると強調した。最大2K解像度で、小さな文字やアイコン、UI要素に加え、複雑なレイアウトや細かなスタイル指定にも忠実に対応できるとしている。

一方で、性能向上には生成速度とのトレードオフもある。リアルタイム出力には向かないものの、複数コマで構成された複雑な画像でも数分以内に生成できるという。

画像生成AIの技術的な方向性の変化にも関心が集まっている。2024年には、ReLax AIの最高経営責任者（CEO）であるAsmelash Teka Hadgu氏が、拡散モデルは入力を再構成する仕組みのため、画像内の文字のような小さな要素より全体のピクセルパターンの学習を優先しやすいと説明していた。

その後、研究者らは大規模言語モデルに近い自己回帰型の画像生成モデルについても研究を進めてきた。

OpenAIは提供範囲も広げる。22日からChatGPTとCodexの全ユーザーがImage 2.0を利用でき、有料ユーザーにはより高品質な出力を提供する。

あわせて「gpt-image-2」APIも公開した。料金は出力品質と解像度に応じて変動する。

Image 2.0は、単なる画像生成ツールにとどまらない。文書画像やマーケティング素材、UIモックアップなど、文字精度と細かな制御が求められる領域での活用拡大が期待される。

Seung-a Yoo ysah@d-today.co.kr

キーワード