Google Gemini 与 OpenAI 的 ChatGPT。图片来源:Reve AI

Google Gemini在一项针对主流AI聊天机器人的对比测试中,成为最不容易被AI文本检测工具识别出的模型之一。测试结果显示,其生成内容在阅读体验上更接近人类写作。

据TechRadar当地时间4月16日报道,ORA近期对12款常用AI聊天机器人进行了统一测试,要求其完成同一篇“读起来像人类写作”的长文任务,随后再将生成文本分别交由Grammarly、QuillBot和GPTZero检测,以判断其是否会被识别为AI生成内容。

从结果来看,Gemini的表现最为明显。在Grammarly中,Gemini生成文本的AI识别率明显低于其他模型;在QuillBot中,其输出甚至未被判定为AI生成。相比之下,GPTZero整体上能够识别出大多数AI生成文本。

ORA认为,Gemini之所以更难被识别,关键在于其句式和行文推进方式与其他模型存在差异。该机构表示,AI检测工具通常会依据可预测的措辞和重复性的结构识别文本模式,而Gemini在这些方面呈现出不同特征。ORA发言人还指出,GPTZero等工具并不只看语言的可预测性,也会综合判断全文结构;如果模型能够更自然地推进论述,识别难度也会随之上升。

另一方面,ChatGPT在同一实验中的表现相对靠后。ORA称,ChatGPT作为较早进入市场的大型AI产品之一,其文风特征早已被广泛认知,因此更容易被检测工具识别。报告还提到,许多后发模型在早期曾模仿ChatGPT的写法,但此后逐步形成了各自风格。

不同检测工具之间的识别能力差异同样明显。其中,Grammarly仅识别出全部AI生成内容的43.5%,在三款工具中表现最弱;GPTZero的识别率则接近99%,表现最强。这也意味着,同一篇文章可能因所使用的检测工具不同,而得到“人类写作”或“AI生成”的不同结论。

这种差异在实际场景中可能带来更直接的问题。比如,学生提交的作业可能在一种检测工具中顺利通过,却在另一种工具中被认定违规;职场人士撰写的文档,也可能因所使用的软件不同而引发质疑。对于在线内容来源和可信度的判断标准,今后也可能因工具差异而进一步分化。

此外,AI写作的文风并未朝单一方向收敛,反而正变得更加多样。近期还有研究提出,线上内容中“近一半可能由AI生成”。随着各模型风格持续分化,建立在单一“AI文体”假设上的检测方式,正面临越来越明显的局限。

整体来看,这项测试所反映的未必是Gemini“写得更好”,而是其输出目前更接近人类读者的阅读感受。尽管检测工具仍会持续迭代,其他模型也可能朝类似方向演进,但可以确定的是,人类写作与AI写作之间的边界正在迅速变得模糊。

关键词

#Google Gemini #ChatGPT #OpenAI #AI文本检测 #Grammarly #QuillBot #GPTZero #ORA #AI写作
版权所有 © DigitalToday。未经授权禁止转载或传播。