视频理解基础模型开发商TwelveLabs于当地时间7月1日宣布,已完成1亿美元B轮融资。公司表示,未来将不止于视频理解,进一步推进通用智能相关研发。
本轮融资由NEA与Naver Ventures共同领投,Amazon、Radical Ventures、Korea Investment Partners、Index Ventures、Kadriyu Capital、Red Bull Ventures参投。完成本轮融资后,TwelveLabs累计融资额已超过2.07亿美元。
TwelveLabs CEO兼联合创始人Lee Jae-sung表示,5年前公司押注的方向是:“机器智能的基础不是语言,而是对真实世界动态记录的理解。”在他看来,语言只是理解之后的表达结果,而视频才是承载真实世界动态信息的核心数据形态。
TwelveLabs表示,公司已构建具备领先水平的视频理解基础模型,其目标并非打造单纯“处理视频的LLM”,而是开发能够原生理解视频的视频原生多模态模型。
目前,TwelveLabs的核心产品包括Marengo模型家族和Pegasus 1.5。
据介绍,去年年底发布的Marengo 3.0可对视频、音频、文本及其组成要素进行编码,并将不同类型的内容转换为机器可读的向量化结构,从而支持AI模型大规模理解和检索信息。
Pegasus则与Marengo协同工作,将视频进一步转化为结构化数据,识别场景边界、出现对象、时间区间及事件语境,帮助LLM基于视觉信息开展推理。
公司指出,当前LLM尚无法一次性处理完整长视频,通常需要先将视频拆分为多张截图后再进行推理。TwelveLabs表示,公司已构建可在多轮查询中持续保留的“记忆”能力,从而实现对时间流逝和内容连续性的原生理解与推理。
TwelveLabs称,公司的战略是在此基础上推动机器对视频内容的分析、检索和业务落地,形成新的视频理解与应用范式。
除融资进展外,TwelveLabs也在同步深化与Amazon Web Services(AWS)的合作。公司表示,已借本轮融资契机与AWS签署多年期合作协议,计划将视频推理负载迁移并优化至AWS Trainium芯片;后续推出的新一代前沿模型也将优先在AWS平台发布。