Google “Nano Banana 2”实测：物理逻辑与文本渲染能力提升

Google近日对图像生成模型“Nano Banana 2”的升级给出明确定位：生成速度更快、逻辑性更强，且可通过提示词输出更贴近现实的画面。针对这一说法，外媒TechRadar于2026年2月28日（当地时间）进行了5项测试，并公布了结果。

首项测试同时检验物理逻辑、材质呈现和文字生成能力。测试要求一只透明玻璃球精准平衡在陶瓷茶壶壶嘴上，球体内部还需刻入极小的银色文字“CLARITY IS KEY”。这一场景不仅涉及文字位于球体内部的物理合理性，还要求模型处理球面曲率带来的折射和形变。

从结果看，球内微型文字仍具备较好的可读性，随曲面产生的变形也相对自然，玻璃材质的通透感、反射和整体质感保持了较高一致性。

第二项测试聚焦复杂画面中的主体控制与细节保留。测试内容为：以电影感风格呈现一艘蒸汽朋克海盗船在日落时分航行于云海之上，船体材质由抛光黄铜、铜和深色木材构成，船上还需出现拟人化动物船员。

这类场景通常对提示词理解和构图稳定性要求较高，元素一旦增多，模型就容易出现主体失焦或细节被压缩的问题。不过在此次测试中，主要对象整体保持清晰，金属与木材表面的反射、明暗关系未出现明显冲突，船体结构也维持了较可信的工程形态，画面光照与材质质感较为协调。

第三项测试则直指图像生成模型长期受到诟病的文字和本地化问题。测试要求生成桌游“The Spice Route”的专业平面设计稿，画面中需包含地图和图例，并在图例中用日文准确标注“金、丝绸、藏红花”。与此同时，画面中央还要呈现一组相互嵌合堆叠的古代香料罐，并保证用于说明玩法的可视化内容在多个视角下保持逻辑一致。

测试结果显示，图例中的日文标注未出现明显破碎，整体仍然清晰可读；地图、图例与核心物体之间的整合度也较高，版式更完整，成品效果更接近真实桌游设计稿。

第四项测试关注强动态场景下的空间逻辑和材质稳定性。测试设定为：在中世纪城堡前的鹅卵石道路上，一名身穿全身板甲的骑士与一台带有涂鸦喷绘的1980年代风格机器人，在现代舞台灯光下展开霹雳舞对决。

这一场景要求模型在呈现大幅动作姿态的同时，处理好板甲金属质感、机器人涂装与涂鸦纹理，以及古堡背景和现代灯光等多组风格冲突元素。结果显示，画面在动态表现中没有出现明显的空间错位或结构失真，主体之间的距离和位置关系较稳定，金属高光与机器人表面纹理也有较清晰的区分。

最后一项测试更接近综合能力检验。测试要求以“超现实但如照片般真实”的风格生成雨后的西雅图街景，远处需可见观景台，画面中还要出现便利店招牌与咖啡店立牌，同时确保3名角色在全场景中保持一致。

这一测试同时考察地域氛围还原、角色一致性与文字准确性。结果显示，整体空间构图较为稳定，尤其是在立牌等包含多行文字的元素中，拼写、行距和排列顺序保持得较好。即便在湿润路面、灯光、招牌和标识等细节高度叠加的场景中，文字信息仍能以相对清晰、易读的形式保留下来。

综合5项测试来看，Nano Banana 2的改进并不只是体现在清晰度或风格强化上，更体现在复杂场景中对物理逻辑、空间关系和文本渲染的一致性控制。尤其是在文字生成和材质呈现这两类高频问题上，错误率有所下降。

不过，测试也显示，最终画面效果仍会受到使用目的和审美偏好的影响。在实际应用中，提示词设计以及反复调整，依然是决定成片质量的关键因素。

Yoonseo Lee yslee@d-today.co.kr

关键词