Google DeepMind发布AI实验工具Project Genie,用户可通过文本或图片生成可探索、可交互的虚拟世界。这也标志着其世界模型技术进一步迈向面向真实用户的测试阶段。
据TechCrunch和Google博客消息称,Google DeepMind目前已向美国境内年满18岁的Google AI Ultra订阅用户开放Project Genie体验。此举也是继去年8月推出通用世界模型Genie 3研究预览版之后的进一步动作。DeepMind希望借此让更多用户直接体验世界模型的交互能力,并收集用户反馈和使用数据,以验证其在真实使用环境中的表现和实用性。
Project Genie是一款网页端实验应用,以Genie 3为核心,同时结合图像生成模型Nano Banana Pro和语言模型Gemini。用户可输入文本提示词,或使用生成的图片或上传的图片创建“世界草图”,并设置角色、移动方式和视角(第一人称或第三人称)后进入虚拟世界。
在使用过程中,用户可先借助Nano Banana Pro预览并调整画面内容,再由Genie 3实时生成路径与环境,虚拟世界也会随着用户的探索和操作不断扩展。
Google DeepMind将“世界草图”“世界探索”“世界混搭”列为Project Genie的三项核心能力。用户既可以在生成的环境中自由移动和交互,也可以基于已有世界继续补充新元素,进行再创作;还可以通过平台提供的精选世界和随机生成功能,体验不同类型的环境。生成结果及探索过程还可下载为视频文件,便于保存和分享。
DeepMind表示,希望通过这一项目推动AI从适应单一环境,走向能够处理现实世界多样场景和动态变化的通用能力。
根据介绍,Genie 3能够依据用户行为实时生成路径,并对物理效果和交互过程进行模拟,同时尽量保持场景一致性。其潜在应用场景包括机器人训练、动画及虚构内容制作,以及对真实地点或历史空间的探索等。
不过,Project Genie目前仍处于研究原型阶段,单次生成和探索时长最多为60秒。Google DeepMind也提醒,部分生成世界可能无法完全符合现实物理规律或用户提示要求,也可能出现角色操作延迟、控制不稳定等问题。该公司表示,将继续改进上述限制,并计划在未来逐步扩大覆盖用户和地区范围。