Ontology成AI底层能力焦点：以显式知识补足LLM短板

在AI行业，一个曾被视为颇为“抽象”的概念正在迅速升温——Ontology。随着Palantir被认为凭借Ontology构建起核心竞争力，围绕这一技术路径的讨论持续升温，韩国也有越来越多科技企业将Ontology作为对外强调的关键能力。

简单来说，Ontology就是把人类原本隐含于经验和语境中的知识，以机器可以识别的显式、结构化方式表达出来。

不过，仅凭这一句定义，仍然很难真正理解Ontology是什么、又为何重新受到关注。对此，中央大学文献信息学系教授 Kim Hak-rae 对Ontology的概念、结构及其与生成式AI的关系进行了系统梳理。

Kim Hak-rae 是韩国长期研究Ontology的代表性学者之一。早年他曾参与用Ontology词汇体系定义社交媒体标签等工作，之后在爱尔兰DERI研究所和 Samsung Electronics（三星电子）研究大规模知识图谱，目前带领中央大学HIKE实验室。

“吃梨”为什么不会被理解错

谈到Ontology，常见的例子是“吃梨”。人看到这句话时，会自然理解“梨”是一种水果，而不会把它联想到其他与“吃”这一动作不匹配的对象。这是因为人脑会结合语境，自动筛选出与谓词“吃”最自然对应的概念。

但计算机并不具备这种能力。若想让机器做出同样判断，就需要事先明确写出“梨是水果”“水果可以吃”“因此‘梨’可以与‘吃’这一行为对应”等知识关系。

这正是Ontology要解决的问题，核心关键词是“显式”。人可以熟练掌握某种知识，却未必能完整说清其判断过程；而Ontology所做的，就是把这类原本隐性的知识抽取出来，转化为可验证、可复用的数据结构或文档。

既不是关系型数据库，也不是LLM

将Ontology与其他常见数据体系放在一起看，更容易理解它的定位。

自上世纪70年代以来广泛使用的关系型数据库，擅长存储事实性信息，例如“MacBook售价为200万韩元”“MacBook有银色和深空灰两种颜色”等。但对于“MacBook属于笔记本电脑”这类带有概念归属、语义关系和层级结构的信息，关系型数据库并不擅长表达。

近年来AI服务常用的向量数据库，则是将海量文本转换为数字向量，并根据概念之间的距离来衡量相似性。比如，当MacBook与iPhone在同一向量空间中距离较近时，系统可以据此判断二者更接近“Apple”这一概念。

大语言模型的工作方式又不同。LLM本质上是基于概率预测下一个词，通过学习海量文本生成在上下文中“最像正确答案”的输出，但它并不会像Ontology那样，单独、明确地定义对象本身以及对象之间的关系。

而Ontology走的是另一条路径：它把知识体系显式结构化。例如，“Apple是一家公司”属于概念定义，“MacBook是笔记本电脑的一种”属于关系定义，“笔记本电脑具有键盘和屏幕”则属于属性定义。

Ontology有“模具”，知识图谱未必有

从结构上看，Ontology通常由两层构成。

第一层是Class（类），也就是概念框架。以“学生”为例，框架可以规定学生属于“人”，并具有学号、姓名、性别、出生地等属性。如果这个框架定义得足够通用，就可以适用于不同国家的学生；但如果把某一国家特有的信息设为必填项，那么它的适用范围就会随之缩小。

第二层是填充进框架的Instance（实例）。例如，如果框架定义的是“DigitalToday记者”，那么“Son Seul-gi”“Hwang Chi-gyu”就可以作为实例被纳入；而不符合这一框架定义的对象，则无法直接归入其中。

借助“面包模具”和“面包”的比喻，也能更容易理解Ontology与知识图谱的差异。知识图谱这一概念由Google在2012年推动普及。如果说Ontology会先明确规定“模具”以及“模具里能装什么”，那么知识图谱有时即使没有完整清晰的框架，也可以先把概念之间的关系连接起来。换言之，Ontology强调“框架+内容”同时明确，而知识图谱在某些场景下仅凭关系连接也能运行。

Ontology如何构建

Ontology最初源于哲学概念。上世纪90年代末，随着Tim Berners-Lee提出语义网（Semantic Web）构想，Ontology开始进入工程领域，即通过为网页数据赋予语义，使机器能够理解信息，而Ontology被视为实现这一目标的重要方法。

在实际构建过程中，通常首先需要由相关参与方就概念及其关系达成一致，随后绘制结构图，再使用OWL、RDF等Ontology专用语言进行表达。

这一体系目前已经形成较高程度的标准化。例如，用于表达名片信息的vCard、覆盖网页内容描述的Schema.org等词汇体系，均已被广泛采用。业内普遍认为，其中约七至八成的基础能力具备复用空间，因此在真实项目中，更常见的做法并不是从零开始重建，而是优先复用已有词汇体系。

为何被视为AI“护栏”

Ontology近期重新受到关注，一个重要原因在于，它被认为有望补足LLM在可控性上的短板。

由于LLM本身基于概率机制运行，即便叠加强指令，也很难做到完全可控。对于色情、暴力等被策略禁止的内容，系统通常也难以从源头上彻底封堵，用户仍可能通过变换提问方式，在特定语境下诱导模型给出回答。

相较之下，Ontology并不是通过事后规则去限制输出，而是通过预先定义结构本身，使系统无法被引导到未被定义的答案范围之外。

例如，编程平台 Replit 的首席技术官在推进AI Agent相关工作时，曾发生客户数据库被整体删除的事故。如果系统事先以Ontology方式明确定义“客户数据库在任何请求下均不可删除”，理论上就有机会在结构层面拦截此类风险。因此，业内开始将Ontology视为限制AI执行边界的一种“AI护栏”。

没有数据基础，Ontology也难以落地

在韩国，Ontology热度升高也与Palantir密切相关。Palantir是一家AI软件公司，以基于Ontology的数据整合和决策平台而闻名。围绕Palantir，市场上既有“Ontology可能成为LLM替代路径”的看法，也有观点认为，随着LLM持续升级，Ontology的重要性会被削弱。

但从行业观察来看，这种将二者简单对立起来的理解并不准确。Palantir恰恰也是最积极使用LLM的公司之一，其核心优势也并不只在Ontology本身，而在于强大的数据处理平台能力：无论何种数据进入系统，都可以被快速转化为图谱化结构；一旦完成导入，平台锁定效应也会随之增强。换句话说，Ontology只是平台中的一种数据处理方式，将问题简化为“Ontology对抗LLM”，本身就存在偏差。

文章还指出，过去一年，韩国围绕Ontology的讨论明显升温，不少企业和初创公司相继宣布导入相关技术。但真正启动并持续推进的项目并不多。业内人士称，很多项目在数据清洗阶段就已陷入停滞，尚未进入Ontology实施环节，项目周期便已被消耗殆尽。

此外，数据体系建设和管理投入不足，也始终是制约因素之一。在企业内部规则不一、标准混杂的情况下，首先要解决的并不是Ontology建模，而是统一业务定义和数据标准。因此，比起单纯强调Ontology技术本身，更现实的优先事项仍是夯实数据治理基础。

Son Seul-gi sageson@d-today.co.kr