画像=Googleブログ

Googleの画像生成モデル「Nano Banana 2」について、TechRadarは2月28日、Googleが打ち出す「高速」「論理性」「現実味のある生成」という特徴が実際の出力でも成り立つかを、5つのテストで検証した結果を紹介した。

最初のテストは、物理的な整合性、素材表現、文字の正確さを同時に試すものだ。陶器のティーポットの注ぎ口の上で透明なガラス球が均衡を保ち、その内部に極小の銀色文字で「CLARITY IS KEY」と刻まれている――という条件を与えた。

この課題では、球体の内部に小さな文字を破綻なく収めるだけでなく、球面に沿った屈折や歪みまで自然に再現する必要がある。生成結果では、微細な文字の可読性を保ちながら、球面特有の歪みやガラスの質感、反射表現まで比較的自然に描かれていたという。

2つ目は、複雑な構図で起こりやすい破綻や主題のぶれを確かめるテストだ。夕暮れの雲海を進むスチームパンク風の海賊船をシネマティックに描き、船体には光沢のある真鍮、銅、濃色の木材を混在させ、さらに擬人化した動物の船員を乗せるよう求めた。

要求が増えるほど、画像生成モデルは主題が曖昧になったり細部が崩れたりしやすい。だが今回の結果では、主要な被写体は比較的明瞭に保たれ、金属と木材の反射や陰影も大きく衝突しなかった。船体構造についても、照明や質感を含めて不自然さは比較的少なかったとしている。

3つ目のテストでは、画像生成モデルの弱点とされやすい文字表現とローカライズを正面から試した。新作ボードゲーム「The Spice Route」のプロ仕様のレイアウトを作成し、地図と凡例を含めたうえで、凡例には「金・ビダン・サフラン」を日本語で正確に記載するよう求めた。

加えて、中央には古代の香辛料の壺が組み合わさるように積み上がった複雑なオブジェクトを配置し、ゲーム進行を説明する図像が複数の視点にまたがって破綻なくつながることも条件にした。生成結果では、日本語表記の可読性を保ったまま全体のレイアウトになじみ、地図、凡例、オブジェクトも一つのデザインとしてまとまりを見せた。TechRadarは、実際のボードゲーム案に近い完成度だったと評価している。

4つ目は、時代も素材も異なる被写体を動きのある構図に置いた場合、空間の整合性と質感表現がどこまで安定するかをみるテストだ。中世の城の前の石畳で、全身プレートアーマーの騎士と、グラフィティを施した1980年代風ロボットが、現代的なステージ照明の下でブレイクダンス対決を繰り広げる設定とした。

この課題では、激しいポーズを成立させながら、鎧の金属感、ロボットの塗装やグラフィティの質感、さらに古城の背景と現代照明という相反する要素を一枚に収める必要がある。結果としては、躍動感を保ちながら被写体同士の距離感や位置関係は大きく崩れず、金属のハイライトとロボット表面の質感の違いも比較的明瞭に描き分けられていた。

最後は、総合テストに近い内容だ。雨に濡れたシアトルの路上を「超現実的でありながら写真のように写実的」に描き、遠景には展望台を配置。さらに、コンビニの看板とカフェの立て看板を盛り込み、3人のキャラクターもシーン全体を通じて一貫して維持するよう求めた。

焦点となったのは、背景の地域性と前景の一貫性だ。背景ではランドマークと街の空気感を自然に組み合わせる必要があり、前景ではキャラクターの維持と文字の正確さが試された。生成結果では、空間構成に大きな乱れは見られず、立て看板のような複数行の文字要素でも、つづりや行配置の一貫性は比較的保たれた。雨に濡れた路面や照明、看板類など細部が重なる場面でも、文字が判読可能な形で残っていた点が目を引いた。

5つのテストを総合すると、Nano Banana 2は単に鮮明さやスタイル表現を高めたモデルというより、物理、空間、文字といった複数の要素が同時に絡む場面でも、構図を保ちやすい傾向が確認できた。とりわけ、文字レンダリングと素材表現で起こりがちなミスをどこまで減らせたかが評価のポイントになった。

一方で、最終的な画像が魅力的に見えるかどうかは、用途や好みによって判断が分かれる余地がある。実運用の場面では、狙った結果を引き出すためのプロンプト設計と反復的な調整が、引き続き重要だとしている。

キーワード

#Google #Nano Banana 2 #AI #画像生成 #TechRadar
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.