以向量数据库和RAG(检索增强生成)生态起家的Pinecone,近期在AI代理领域给出了与以往不同的产品判断。
据The New Stack近日报道,过去4年,Pinecone围绕RAG的分块(chunking)、嵌入(embedding)和检索能力服务了80万名开发者,并于5月初推出面向AI代理的知识引擎Nexus。
Pinecone认为,在推理阶段临时检索信息的传统RAG模式已经属于“过去式”。在这一模式下,AI代理往往不断陷入“检索—读取—再检索”的循环,任务完成率只能达到50%至60%,而且约85%的工作量都耗费在获取上下文上。
该公司指出,传统RAG将原始分块直接交给大模型,再寄望模型自行理解和组织信息,这种方式不仅速度慢、成本高,稳定性也不足。
与之不同,Nexus的思路是把处理环节前置,即在查询发生之前先完成知识预处理,而不是等问题出现后再即时拉取信息并解析含义。
与Nexus一同发布的KnowQL,正是为这一机制设计的查询语言。Pinecone称,采用这套方案后,AI代理的任务完成率可提升至90%以上,Token成本则可下降90%。
对于上述数据,The New Stack撰稿人Janakiram MSV表示,在经过验证之前,很难完全照单全收。不过他同时认为,这一判断在结构上是成立的,和具体数字并无绝对关系;相比传统方式,“一次编译、多次读取”的模式更适合AI代理的任务运行方式。
类似思路并非Pinecone独有。Anthropic已推出可打包常用上下文并重复调用的“技能”机制;AI编程工具Cursor中的Cursor Rules,也在编辑器层面承担了相近作用;Claude Code的子代理则会围绕不同任务预先打包上下文和工具。LangChain的Harrison Chase过去几个月一直将这一方向称为“上下文工程”,并认为Pinecone是在检索层面对这一模式的具体落地。
不过,质疑声同样存在。Janakiram MSV指出,KnowQL若要真正发挥作用,前提是像SQL一样成为全行业普遍采用的标准;而标准的形成,并不是单靠一家厂商发布产品就能实现的。