瑞典AI初创公司Opper AI推出实验平台“AI Roundtable”,支持在同一界面对不同AI模型的判断进行对比,并让模型之间展开讨论。相较于单独评估某一个模型的表现,该平台更侧重展示多模型参与下的集体决策过程,因此受到业界关注。
据Gizmag当地时间27日报道,“AI Roundtable”可从200多种AI模型中选择最多50个,就同一个问题同时作答,并集中呈现各模型的回答结果。平台不止展示答案本身,还可汇总整体观点,归纳更有说服力的结论,同时展示各模型作出选择的理由,便于用户分析结果及其推理过程。
这一平台的核心思路,源于团队提出的所谓“洗车测试”。例如,对于“洗车店距离只有50米时,应该步行还是开车前往”这类看似简单的问题,部分AI却会反复给出脱离现实的判断。基于这一现象,Opper AI开始尝试通过多模型对比与交叉验证,观察不同模型在相同问题上的判断差异。测试显示,接近一半的模型曾给出“步行”等有违直觉的答案。
为减少这类问题,“AI Roundtable”引入了“辩论”(Debate)机制。在辩论模式下,最多可由6个AI模型围绕彼此观点展开反驳和修正。即便初始投票结果分歧明显,讨论过程中,部分模型也可能被逻辑更完整的观点说服,最终结论逐步趋同。这也反映出,多模型协同判断在某些场景下,可能比单一模型作答更细致。
在使用方式上,用户输入问题和选项后,可选择“投票”(Poll)或“辩论”(Debate)模式,并从列表中添加参与的AI模型。投票模式下,平台可展示最多50个模型的选择分布及汇总结果;辩论模式则更侧重少量模型之间的互动与决策过程。结果页面会集中呈现“模型选择”“投票理由”“汇总结论”等信息。
平台还支持将结果保存为PNG图片并分享。用户也可以通过“Past Roundtable”查看历史案例,例如在视野受限的地牢中应朝哪个方向移动,或在电梯门即将关闭时是否应该等别人,涉及日常判断和伦理取舍的问题。需要注意的是,相关会话默认不公开,除非用户主动分享,否则不会对外显示。
“AI Roundtable”目前可免费使用。获取API密钥后,用户可以开展更多实验,或管理历史提问记录。页面中的“预算计数器”用于提示调用AI模型的成本,更多使用需求将通过信用点数机制运行。
业界认为,这一平台不仅是多模型对比工具,也有望成为观察AI模型偏差与错误、并寻找改进方向的实验环境。