画像=ChatGPT

生成AIの限界を補う技術として、「オントロジー(Ontology)」への関心が高まっている。概念とその関係を明示的に定義し、知識体系を構造化できる点が特徴で、AIのガードレールとして活用できるとの期待もある。一方で、実務への適用にはデータ基盤の整備が前提になる。

Palantirがオントロジーを前面に打ち出したことで注目度が増し、韓国でも関連技術を強みとして掲げるテック企業が増えてきた。

オントロジーは、人が暗黙のうちに理解している知識を、文書やデータとして明示化し、機械が扱える形にする考え方といえる。

ただ、この説明だけでは全体像はつかみにくい。そこで、中央大学校 文献情報学科のキム・ハンレ教授に、オントロジーの基本概念と注目される背景を聞いた。

キム教授は、韓国で長年にわたりオントロジーを研究してきた研究者の一人だ。若い頃にはソーシャルメディアのタグをオントロジー語彙として定義する作業にも参加した。アイルランドのDERI研究所とSamsung Electronicsで大規模な知識グラフを研究し、現在は中央大学校HIKE研究室を率いている。

◆「梨を食べる」が示す意味

オントロジーの説明でよく使われる例が「梨を食べる」という文だ。人はこの文を見れば、自然に果物の梨を思い浮かべる。体の部位や船を意味する語として受け取ることはない。「食べる」という述語に対応する概念を、文脈に沿って脳が選び取っているためだ。

一方、コンピュータはそうではない。「梨は果物であり、果物は食べられる」という関係があらかじめ定義されて初めて、その意味を理解できる。

ここで役立つのがオントロジーだ。鍵になるのは「明示的」である点にある。泳ぎ方のように体では分かっていても言語化しにくい知識と同様、人の中に暗黙知として存在する内容を、誰でも確認できる文書やデータとして取り出す。

◆RDBでもLLMでもない

他のデータ体系と比較すると、オントロジーの違いが見えてくる。

1970年代から使われてきたリレーショナルデータベース(RDB)は、事実情報の保存に向く。例えば「MacBookの価格は200万ウォン」「MacBookにはシルバーとスペースグレイがある」といった情報だ。ただ、「MacBookはノートPCの一種」といった概念の意味や階層構造を明示的に定義する用途には向かない。

近年のAIサービスで多用されるベクトルDBは、大量の文字列を数値ベクトルに変換し、概念間の近さをスコアとして扱う。MacBookとiPhoneが同じベクトル空間で近ければ、「Apple」という概念に関連が深いと判断する形だ。

大規模言語モデル(LLM)は、確率に基づいて文字列を処理する。個々のオブジェクトや、その関係を一つずつ定義するわけではない。膨大なテキストを学習し、次に来る語を予測しながら、文脈上もっともらしい答えを生成する。

これに対しオントロジーは、「Appleは企業」「MacBookはノートPCの一種」「ノートPCにはキーボードと画面がある」といった形で、概念、関係、属性を明示的に構造化する。知識体系そのものを定義できる点が大きな違いだ。

◆「型」と「実体」で成り立つ

オントロジーは大きく2つのレイヤーで構成される。

1つは、概念の枠組みを定義するクラス(Class)だ。例えば「学生」という概念を定義する場合、学生は人であり、学籍番号、氏名、性別、出身地といった属性を持つ、といった枠組みを設計する。この枠組みを普遍的に作れば広く適用できるが、住民登録番号を必須項目に含めれば、韓国の制度に依存した定義になる。

もう1つは、その枠組みに入る具体的なデータで、インスタンス(Instance)と呼ばれる。例えば「DigitalToday記者」がクラスであれば、「Son Seul-gi」や「Hwang Chi-gyu」はそのインスタンスに当たる。枠組みに合わない人物は、そこに含めることができない。

知識グラフ(Knowledge Graph)との違いを理解するうえでも、「型」と「実体」という見方は有効だ。Googleが2012年に導入して広く知られるようになった知識グラフは、概念同士の関係を結び付ける点に重点がある。これに対しオントロジーは、概念の枠組みと具体的データの両方を厳密に定義する。知識グラフは枠組みがなくても関係の記述は可能だが、オントロジーでは枠組み自体の定義が重要になる。

◆オントロジーはどう構築するのか

哲学に起源を持つオントロジーが工学分野へ広がったのは、1990年代後半にティム・バーナーズ=リーがセマンティック・ウェブ(Semantic Web)を提唱してからだ。Web上のデータに意味を与え、機械が理解できるようにする構想で、その実装手法の1つがオントロジーとされる。

構築の手順としては、まず関係者が概念や関係について合意し、構造図として設計する。そのうえで、OWLやRDFなどの専用言語で表現する。

標準化も進んでいる。名刺情報を表現するvCardや、Webコンテンツ全般を扱うSchema.orgなど、分野ごとの語彙体系が広く利用されている。キム教授によると、全体の7〜8割はすでに整備されており、ゼロから作るよりも既存語彙を再利用するケースが多いという。

◆AIのガードレールになり得る

近年オントロジーが注目を集める最大の理由は、LLMの限界を補完できるとの期待にある。

LLMは確率モデルである以上、強い指示を与えても完全に統制するのは難しい。わいせつ性や暴力性など、ポリシー上は禁止された内容であっても、質問の仕方を変えれば文脈次第で応答が生成される可能性が残る。

これに対し、オントロジーはルールを追加するというより、扱う対象と関係を構造として定義する。定義されていない内容については、そもそも結論を導きにくい。

例として、Replitの最高技術責任者が紹介した事例では、AIエージェントの作業中に顧客DBが丸ごと削除されたケースがあったという。システム定義の段階で「顧客DBはいかなる要求でも削除しない」とオントロジー的に構造化していれば、防げた可能性がある。こうした点から、オントロジーはAIの実行範囲を制約するガードレールになり得るとみられている。

◆データがなければ機能しない

韓国ではPalantirをきっかけに、オントロジーへの関心が大きく高まった。Palantirは、オントロジーに基づくデータ統合と意思決定支援のプラットフォームで知られるAIソフトウェア企業だ。一部では、PalantirのオントロジーがLLMの代替になるとの見方がある一方、LLMが高度化すればオントロジーは不要になるという主張も出ている。

ただ、キム教授はこの対立構図自体が適切ではないとみる。PalantirはむしろLLMの活用にも積極的で、真の強みはオントロジーそのものより、データ処理プラットフォームにあるという。多様なデータを容易にグラフ構造へ変換でき、導入後のスイッチングコストも高い。オントロジーは、そのプラットフォーム上でデータを処理する方式の1つにすぎないという見方だ。

韓国でも、この1年でオントロジー熱は急速に高まった。多くの企業やスタートアップが導入を打ち出したが、実際に本格着手した例は多くない。プロジェクトを始めても、データの精製段階で足踏みし、オントロジーの設計まで進まないまま終了するケースが大半だとの指摘もある。

背景には、データ体系の構築や管理への投資が組織ごとにばらついているという問題がある。一般企業では部門ごとに基準やルールが異なり、ビジネスロジックの合意形成そのものが難しい。オントロジー技術を論じる前に、まずはデータ基盤を整える必要がある。

キーワード

#オントロジー #生成AI #LLM #RDB #ベクトルDB #知識グラフ #セマンティック・ウェブ #Palantir
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.