图片来源:Shutterstock

据CNBC当地时间10日报道,AI视频生成工具Vidu开发商ShengShu已完成2.9亿美元B轮融资,由Alibaba Cloud领投,TAL Education和Baidu Ventures跟投。

这笔融资也反映出,随着大语言模型(LLM)以文本为核心的能力边界逐渐显现,市场对世界模型研发的关注正在升温。相比单纯依赖文本训练的模型,世界模型更强调基于视频和真实物理场景理解世界运行规律。

ShengShu表示,本轮融资所得将用于研发通用世界模型,打通游戏、AI视频等数字场景与自动驾驶、机器人等物理场景。

公司称,基于视觉、音频、触觉等多模态数据构建的通用世界模型,比LLM更适合刻画物理世界的运行规律。ShengShu创始人Zhu Jun表示,公司的目标是连接“感知与行动”,让AI系统能够对现实世界中的行为进行统一建模和预测。

CNBC称,ShengShu最新模型Vidu Q3 Pro已在文生视频和图生视频模型领域进入前十。公开资料显示,在OpenAI发布Sora前数个月,ShengShu已将Vidu推向全球市场。

与此同时,Alibaba也在加码投资相关初创企业。上个月,Alibaba与Baidu Ventures共同向Tripo AI投资5000万美元,后者可通过照片生成3D数字模型。去年9月,Alibaba还向已推出AI世界模型的PixVerse投资6000万美元。

除对外投资外,Alibaba自身也已发布多款视频生成开源AI模型,并于今年2月公开了一款用于机器人控制的模型。分析认为,世界模型对机器人领域尤其关键。

美国IT杂志Wired联合创始人Kevin Kelly表示,若要实现接近人类水平的AI,推理能力、对物理世界的理解能力以及持续学习能力缺一不可,而世界模型可能成为其中的重要突破口。

关键词

#ShengShu #Vidu #Alibaba Cloud #Baidu Ventures #TAL Education #B轮融资 #世界模型 #多模态数据 #视频生成模型 #机器人
版权所有 © DigitalToday。未经授权禁止转载或传播。