複数の生成AIモデルが特定の人物名をどの程度強く学習しているかを比較できるWebサービス「IN THE WEIGHTS」が公開された。各モデルに同じ人物名を入力し、回答内容や信頼度をもとに独自スコアを算出する仕組みで、誤認候補や低信頼の回答もあわせて確認できる。
Gigazineが今月19日(現地時間)に報じた。IN THE WEIGHTSは、特定の人物名がAIモデル内部でどの程度強く重み付けされているかを「STRENGTH SCORE」として表示するサービスだ。
大規模言語モデル(LLM)は学習過程で大量のデータを処理し、情報の重要度に応じて内部の重みを調整する。特定の人物名がモデル内で強く学習されていれば、その人物が学習データに相対的に多く、あるいは重要な形で登場していた可能性が高い。Web検索を使わなくても、その人物について説明しやすいことを示す一つの手がかりにもなる。
同サービスは複数の生成AIモデルに同じ人物名を入力し、返答を比較する。対応モデルにはGPT-5.5、GPT-5.4 mini、Opus 4.8、Haiku 4.5、Grok 4.20、Gemini 3.1 Lite、Kimi K2 0905、DeepSeek V4、Llama 3.3 70B、Llama 3.2 1B、GLM 4.7 Flash、Mistral 3.2 24B、Qwen3 8Bなどが含まれる。
ユーザーが人物名を入力すると、サービスは各モデルにその人物が誰かを尋ねる。取得した最大10件の候補、簡単な説明、信頼度を総合し、「STRENGTH SCORE」を算出する。
トップ画面には、その日に検索された人物のうち高スコアの例が表示される。ウォルフガング・アマデウス・モーツァルト、ウィリアム・シェイクスピア、テイラー・スウィフト、スティーブン・スピルバーグ、エリザベス2世はいずれも996点だった。Gigazineは、この数値が事実上の上限に近いと説明している。
実際の検索例では、モデルごとの人物認識の差も確認できる。Appleの最高経営責任者(CEO)ティム・クック氏は986点で、画面上では上位1%水準と表示された。TeslaおよびSpaceXのCEO、イーロン・マスク氏は992点で、ティム・クック氏を上回った。
日本の政治家、高市早苗氏は792点だった。画面上では上位3%とされたが、モデルによっては同姓同名の別人に誤って結び付けるケースも見られた。
例えばMistral 3.2 24Bはアニメキャラクターを候補として挙げたが、実際にはその作品に同名の人物は存在しないことが確認された。サービスは、こうした誤りの可能性もあわせて示す。
結果画面の下部には、ハルシネーションの可能性がある項目も表示される。Llama 3.2 1Bが示した低信頼の回答のように、事実関係が不確かな内容を別枠で分類している。
歴史上の人物も高スコアを記録した。日本の戦国時代の武将、織田信長は982点だった。現代の経営者に限らず、歴史人物も複数のAIモデルで強く学習されている可能性を示している。
IN THE WEIGHTSは、単なる人物検索サービスというより、異なるAIモデルが特定の名前をどの程度安定して認識するかを比較するためのツールに近い。スコアだけでなく、誤認候補や低信頼の回答も表示することで、モデル間の認識差とハルシネーションのリスクを同時に把握できる。