Google “Nano Banana 2” 图片来源:Google博客

Google近日对图像生成模型“Nano Banana 2”的升级给出明确定位:生成速度更快、逻辑性更强,且可通过提示词输出更贴近现实的画面。针对这一说法,外媒TechRadar于2026年2月28日(当地时间)进行了5项测试,并公布了结果。

首项测试同时检验物理逻辑、材质呈现和文字生成能力。测试要求一只透明玻璃球精准平衡在陶瓷茶壶壶嘴上,球体内部还需刻入极小的银色文字“CLARITY IS KEY”。这一场景不仅涉及文字位于球体内部的物理合理性,还要求模型处理球面曲率带来的折射和形变。

从结果看,球内微型文字仍具备较好的可读性,随曲面产生的变形也相对自然,玻璃材质的通透感、反射和整体质感保持了较高一致性。

第二项测试聚焦复杂画面中的主体控制与细节保留。测试内容为:以电影感风格呈现一艘蒸汽朋克海盗船在日落时分航行于云海之上,船体材质由抛光黄铜、铜和深色木材构成,船上还需出现拟人化动物船员。

这类场景通常对提示词理解和构图稳定性要求较高,元素一旦增多,模型就容易出现主体失焦或细节被压缩的问题。不过在此次测试中,主要对象整体保持清晰,金属与木材表面的反射、明暗关系未出现明显冲突,船体结构也维持了较可信的工程形态,画面光照与材质质感较为协调。

第三项测试则直指图像生成模型长期受到诟病的文字和本地化问题。测试要求生成桌游“The Spice Route”的专业平面设计稿,画面中需包含地图和图例,并在图例中用日文准确标注“金、丝绸、藏红花”。与此同时,画面中央还要呈现一组相互嵌合堆叠的古代香料罐,并保证用于说明玩法的可视化内容在多个视角下保持逻辑一致。

测试结果显示,图例中的日文标注未出现明显破碎,整体仍然清晰可读;地图、图例与核心物体之间的整合度也较高,版式更完整,成品效果更接近真实桌游设计稿。

第四项测试关注强动态场景下的空间逻辑和材质稳定性。测试设定为:在中世纪城堡前的鹅卵石道路上,一名身穿全身板甲的骑士与一台带有涂鸦喷绘的1980年代风格机器人,在现代舞台灯光下展开霹雳舞对决。

这一场景要求模型在呈现大幅动作姿态的同时,处理好板甲金属质感、机器人涂装与涂鸦纹理,以及古堡背景和现代灯光等多组风格冲突元素。结果显示,画面在动态表现中没有出现明显的空间错位或结构失真,主体之间的距离和位置关系较稳定,金属高光与机器人表面纹理也有较清晰的区分。

最后一项测试更接近综合能力检验。测试要求以“超现实但如照片般真实”的风格生成雨后的西雅图街景,远处需可见观景台,画面中还要出现便利店招牌与咖啡店立牌,同时确保3名角色在全场景中保持一致。

这一测试同时考察地域氛围还原、角色一致性与文字准确性。结果显示,整体空间构图较为稳定,尤其是在立牌等包含多行文字的元素中,拼写、行距和排列顺序保持得较好。即便在湿润路面、灯光、招牌和标识等细节高度叠加的场景中,文字信息仍能以相对清晰、易读的形式保留下来。

综合5项测试来看,Nano Banana 2的改进并不只是体现在清晰度或风格强化上,更体现在复杂场景中对物理逻辑、空间关系和文本渲染的一致性控制。尤其是在文字生成和材质呈现这两类高频问题上,错误率有所下降。

不过,测试也显示,最终画面效果仍会受到使用目的和审美偏好的影响。在实际应用中,提示词设计以及反复调整,依然是决定成片质量的关键因素。

关键词

#Google #Nano Banana 2 #图像生成 #提示词 #文本渲染 #材质呈现 #物理逻辑 #复杂场景
版权所有 © DigitalToday。未经授权禁止转载或传播。