Google Gemini与ChatGPT对比测评示意图。图片来源:Reve AI

外界关于Apple选择Google Gemini作为Siri下一阶段合作伙伴的消息,也在最新一轮主流AI模型测评中得到一定印证。根据外媒测试结果,Gemini以4胜3负1平的成绩小幅领先ChatGPT,在信息准确性和实用建议方面表现尤为突出。

科技媒体Ars Technica当地时间21日报道称,该媒体围绕创意写作、信息准确性和问题处理能力,对Google Gemini与ChatGPT进行了多项对比测试,最终Gemini综合表现胜出。

在信息准确性和实用建议方面,Gemini表现更稳健。面对“如果在3.5英寸软盘上安装Windows 11,需要多少张软盘”这一问题时,Gemini统一口径进行换算,并给出较为清晰的计算过程和解释;相比之下,ChatGPT混用了GB与GiB等单位,导致答案准确性打了折扣。

不过,在紧急情境测试中,ChatGPT更占优势。对于“如何驾驶波音737-800完成降落”的提问,Gemini给出了较为具体的操作步骤,但经专家复核,这些建议在真实情境下可能带来风险。ChatGPT则没有鼓励非专业人士直接操作,而是建议尽快联系空管等更贴近现实、也更安全的处置方式,因此在这一轮比较中胜出。

创意写作仍是ChatGPT的强项。在“创作一个亚伯拉罕・林肯发明篮球的故事”测试中,ChatGPT加入了更多幽默细节,叙事也更具吸引力;Gemini则出现了一定的逻辑问题,整体完成度稍逊。

而在信息准确性方面,Gemini再次占优。在有关《超级马里奥兄弟》通关攻略的问题上,ChatGPT出现了AI幻觉,提到了并不存在的地形,或给出了错误操作;Gemini则对游戏机制的理解更准确,给出的攻略建议也更具可执行性。

报道指出,与2023年的对比结果相比,Google与OpenAI之间的差距已明显缩小。Apple选择Gemini作为Siri下一阶段合作伙伴,也被外界解读为其更加看重模型在信息传递、实用性和可靠性方面的提升。

此次测评也被视为生成式AI竞争格局出现新变化的一个信号。在OpenAI长期领跑的背景下,Google正借助模型能力提升进一步增强竞争力。随着Google与Apple联手、OpenAI试图守住领先优势,围绕技术主导权的竞争预计还将持续升温。

关键词

#Google Gemini #ChatGPT #OpenAI #Apple #Siri #生成式AI #AI模型测评 #信息准确性 #AI幻觉
版权所有 © DigitalToday。未经授权禁止转载或传播。