IN THE WEIGHTS以分数形式显示AI模型对人物姓名的学习强度。图片来源:IN THE WEIGHTS

网页服务IN THE WEIGHTS近日开放使用,用户可借此比较多款生成式AI模型对特定人物姓名的学习强度。

据外媒GIGAZINE当地时间6月19日报道,IN THE WEIGHTS会将某一人名在AI模型中的“学习强度”以分数形式呈现,帮助用户直观了解不同模型对相关人物信息的掌握程度。

大语言模型在训练过程中会处理海量数据,并通过参数权重调整信息的重要性。某个人名对应的学习强度越高,通常意味着其在训练数据中出现得更频繁,或具有更高的重要性。换言之,在不依赖额外联网检索的情况下,模型更容易直接识别并描述该人物。

该服务支持在多款生成式AI模型中输入同一人名进行横向比较。目前支持的模型包括GPT-5.5、GPT-5.4 mini、Opus 4.8、Haiku 4.5、Grok 4.20、Gemini 3.1 Lite、Kimi K2 0905、DeepSeek V4、Llama 3.3 70B、Llama 3.2 1B、GLM 4.7 Flash、Mistral 3.2 24B和Qwen3 8B等。

用户输入姓名后,系统会向各模型提问“这个人是谁”,随后汇总最多10个候选答案、简要说明及置信度,并据此计算“STRENGTH SCORE”。

从首页展示结果来看,当日搜索热度较高的人物中,Wolfgang Amadeus Mozart、William Shakespeare、Taylor Swift、Steven Spielberg和Elizabeth II等均以996分位居前列。GIGAZINE称,这一分数已接近理论上限。

具体到单次查询,不同模型之间的差异也较为明显。苹果CEO Tim Cook得分为986,被标注为前1%;特斯拉和SpaceX CEO Elon Musk得分为992,高于Tim Cook。

日本政治人物Sanae Takaichi得分为792,页面将其归入前3%区间。但部分模型出现了同名误判。例如,Mistral 3.2 24B将某动画角色列为候选,但经核查,该作品中并不存在同名人物。

对于这类错误,服务也会在结果页面同步提示。页面底部会标注“可能的幻觉”,并将类似Llama 3.2 1B给出的低置信度回答等事实不确定内容单独归类。

历史人物同样可能获得高分。日本战国时代人物Oda Nobunaga得分为982,这也显示出,除现代企业家外,历史人物同样可能在多款AI模型中被高度学习。

整体来看,IN THE WEIGHTS与其说是人物搜索工具,不如说更适合用于比较不同AI模型对同一姓名的识别是否稳定。它不仅给出分数,还会展示错误候选和低置信度回答,便于同时观察模型差异及潜在幻觉风险。

从这一点看,这类服务可为观察AI模型在公众人物、历史人物和名人相关信息上的训练偏差与可靠性差异提供参考。

关键词

#IN THE WEIGHTS #生成式AI #大语言模型 #STRENGTH SCORE #模型权重 #学习强度 #AI幻觉 #Elon Musk #Tim Cook #模型对比
版权所有 © DigitalToday。未经授权禁止转载或传播。