在AI行业,一个曾被视为颇为“抽象”的概念正在迅速升温——Ontology。随着Palantir被认为凭借Ontology构建起核心竞争力,围绕这一技术路径的讨论持续升温,韩国也有越来越多科技企业将Ontology作为对外强调的关键能力。
简单来说,Ontology就是把人类原本隐含于经验和语境中的知识,以机器可以识别的显式、结构化方式表达出来。
不过,仅凭这一句定义,仍然很难真正理解Ontology是什么、又为何重新受到关注。对此,中央大学文献信息学系教授 Kim Hak-rae 对Ontology的概念、结构及其与生成式AI的关系进行了系统梳理。
Kim Hak-rae 是韩国长期研究Ontology的代表性学者之一。早年他曾参与用Ontology词汇体系定义社交媒体标签等工作,之后在爱尔兰DERI研究所和 Samsung Electronics(三星电子)研究大规模知识图谱,目前带领中央大学HIKE实验室。
“吃梨”为什么不会被理解错
谈到Ontology,常见的例子是“吃梨”。人看到这句话时,会自然理解“梨”是一种水果,而不会把它联想到其他与“吃”这一动作不匹配的对象。这是因为人脑会结合语境,自动筛选出与谓词“吃”最自然对应的概念。
但计算机并不具备这种能力。若想让机器做出同样判断,就需要事先明确写出“梨是水果”“水果可以吃”“因此‘梨’可以与‘吃’这一行为对应”等知识关系。
这正是Ontology要解决的问题,核心关键词是“显式”。人可以熟练掌握某种知识,却未必能完整说清其判断过程;而Ontology所做的,就是把这类原本隐性的知识抽取出来,转化为可验证、可复用的数据结构或文档。
既不是关系型数据库,也不是LLM
将Ontology与其他常见数据体系放在一起看,更容易理解它的定位。
自上世纪70年代以来广泛使用的关系型数据库,擅长存储事实性信息,例如“MacBook售价为200万韩元”“MacBook有银色和深空灰两种颜色”等。但对于“MacBook属于笔记本电脑”这类带有概念归属、语义关系和层级结构的信息,关系型数据库并不擅长表达。
近年来AI服务常用的向量数据库,则是将海量文本转换为数字向量,并根据概念之间的距离来衡量相似性。比如,当MacBook与iPhone在同一向量空间中距离较近时,系统可以据此判断二者更接近“Apple”这一概念。
大语言模型的工作方式又不同。LLM本质上是基于概率预测下一个词,通过学习海量文本生成在上下文中“最像正确答案”的输出,但它并不会像Ontology那样,单独、明确地定义对象本身以及对象之间的关系。
而Ontology走的是另一条路径:它把知识体系显式结构化。例如,“Apple是一家公司”属于概念定义,“MacBook是笔记本电脑的一种”属于关系定义,“笔记本电脑具有键盘和屏幕”则属于属性定义。
Ontology有“模具”,知识图谱未必有
从结构上看,Ontology通常由两层构成。
第一层是Class(类),也就是概念框架。以“学生”为例,框架可以规定学生属于“人”,并具有学号、姓名、性别、出生地等属性。如果这个框架定义得足够通用,就可以适用于不同国家的学生;但如果把某一国家特有的信息设为必填项,那么它的适用范围就会随之缩小。
第二层是填充进框架的Instance(实例)。例如,如果框架定义的是“DigitalToday记者”,那么“Son Seul-gi”“Hwang Chi-gyu”就可以作为实例被纳入;而不符合这一框架定义的对象,则无法直接归入其中。
借助“面包模具”和“面包”的比喻,也能更容易理解Ontology与知识图谱的差异。知识图谱这一概念由Google在2012年推动普及。如果说Ontology会先明确规定“模具”以及“模具里能装什么”,那么知识图谱有时即使没有完整清晰的框架,也可以先把概念之间的关系连接起来。换言之,Ontology强调“框架+内容”同时明确,而知识图谱在某些场景下仅凭关系连接也能运行。
Ontology如何构建
Ontology最初源于哲学概念。上世纪90年代末,随着Tim Berners-Lee提出语义网(Semantic Web)构想,Ontology开始进入工程领域,即通过为网页数据赋予语义,使机器能够理解信息,而Ontology被视为实现这一目标的重要方法。
在实际构建过程中,通常首先需要由相关参与方就概念及其关系达成一致,随后绘制结构图,再使用OWL、RDF等Ontology专用语言进行表达。
这一体系目前已经形成较高程度的标准化。例如,用于表达名片信息的vCard、覆盖网页内容描述的Schema.org等词汇体系,均已被广泛采用。业内普遍认为,其中约七至八成的基础能力具备复用空间,因此在真实项目中,更常见的做法并不是从零开始重建,而是优先复用已有词汇体系。
为何被视为AI“护栏”
Ontology近期重新受到关注,一个重要原因在于,它被认为有望补足LLM在可控性上的短板。
由于LLM本身基于概率机制运行,即便叠加强指令,也很难做到完全可控。对于色情、暴力等被策略禁止的内容,系统通常也难以从源头上彻底封堵,用户仍可能通过变换提问方式,在特定语境下诱导模型给出回答。
相较之下,Ontology并不是通过事后规则去限制输出,而是通过预先定义结构本身,使系统无法被引导到未被定义的答案范围之外。
例如,编程平台 Replit 的首席技术官在推进AI Agent相关工作时,曾发生客户数据库被整体删除的事故。如果系统事先以Ontology方式明确定义“客户数据库在任何请求下均不可删除”,理论上就有机会在结构层面拦截此类风险。因此,业内开始将Ontology视为限制AI执行边界的一种“AI护栏”。
没有数据基础,Ontology也难以落地
在韩国,Ontology热度升高也与Palantir密切相关。Palantir是一家AI软件公司,以基于Ontology的数据整合和决策平台而闻名。围绕Palantir,市场上既有“Ontology可能成为LLM替代路径”的看法,也有观点认为,随着LLM持续升级,Ontology的重要性会被削弱。
但从行业观察来看,这种将二者简单对立起来的理解并不准确。Palantir恰恰也是最积极使用LLM的公司之一,其核心优势也并不只在Ontology本身,而在于强大的数据处理平台能力:无论何种数据进入系统,都可以被快速转化为图谱化结构;一旦完成导入,平台锁定效应也会随之增强。换句话说,Ontology只是平台中的一种数据处理方式,将问题简化为“Ontology对抗LLM”,本身就存在偏差。
文章还指出,过去一年,韩国围绕Ontology的讨论明显升温,不少企业和初创公司相继宣布导入相关技术。但真正启动并持续推进的项目并不多。业内人士称,很多项目在数据清洗阶段就已陷入停滞,尚未进入Ontology实施环节,项目周期便已被消耗殆尽。
此外,数据体系建设和管理投入不足,也始终是制约因素之一。在企业内部规则不一、标准混杂的情况下,首先要解决的并不是Ontology建模,而是统一业务定义和数据标准。因此,比起单纯强调Ontology技术本身,更现实的优先事项仍是夯实数据治理基础。