图片来源:Shutterstock

随着数据库和分析厂商密集布局Text-to-SQL,自然语言查询数据库的应用正在快速升温。不过,业内专家提醒,非专业用户若单独使用这类工具,仍面临不容忽视的误判风险。

据The Register报道,AWS近期推出了基于Bedrock平台的Text-to-SQL方案;Snowflake则发布Cortex Analyst,可将“上月营收”等业务表述转换为数据库可识别的查询语义;MongoDB也推出了基于LangChain的自然语言查询API。

多伦多大学计算机科学系教授Nick Koudas表示,业务人员在使用这类工具时,系统可能生成语法正确、但与用户真实意图不符的查询语句。当前Text-to-SQL系统的准确率约为80%,低于人类专家约93%的水平。尤其是在企业普遍拥有自有数据结构和内部术语的情况下,如果缺少针对性训练,LLM很难准确理解相关语境。

他指出,Text-to-SQL更大的风险在于生成“语法正确但语义错误”的查询。语法错误通常会导致查询无法执行,问题也更容易被立即发现;但如果是语义层面的偏差,系统可能返回完全不相关的结果,而且未必会直接报错,因此更难识别。

Nick Koudas强调,现阶段在通过自然语言生成SQL的实际使用过程中,仍需要由具备SQL理解能力、并能核验查询结果的专业人员参与把关。

与此同时,研究人员也在探索通过追问机制来提升准确性。报道指出,自然语言本身存在模糊性,表达方式和语气差异也会影响模型判断。当LLM遇到含义不够明确的表述时,可以进一步向用户确认“这里指的是A还是B”,再继续完成查询。

Nick Koudas表示,Text-to-SQL的定位应是提升开发效率的辅助工具,而不是取代开发者的技术。

关键词

#Text-to-SQL #自然语言查询 #数据库 #AWS #Bedrock #Snowflake #Cortex Analyst #MongoDB #LangChain #LLM
版权所有 © DigitalToday。未经授权禁止转载或传播。