ORA对比测试：Google Gemini在多款AI文本检测工具中识别率最低

Google Gemini 与 OpenAI 的 ChatGPT。图片来源：Reve AI

Google Gemini在一项针对主流AI聊天机器人的对比测试中，成为最不容易被AI文本检测工具识别出的模型之一。测试结果显示，其生成内容在阅读体验上更接近人类写作。

据TechRadar当地时间4月16日报道，ORA近期对12款常用AI聊天机器人进行了统一测试，要求其完成同一篇“读起来像人类写作”的长文任务，随后再将生成文本分别交由Grammarly、QuillBot和GPTZero检测，以判断其是否会被识别为AI生成内容。

从结果来看，Gemini的表现最为明显。在Grammarly中，Gemini生成文本的AI识别率明显低于其他模型；在QuillBot中，其输出甚至未被判定为AI生成。相比之下，GPTZero整体上能够识别出大多数AI生成文本。

ORA认为，Gemini之所以更难被识别，关键在于其句式和行文推进方式与其他模型存在差异。该机构表示，AI检测工具通常会依据可预测的措辞和重复性的结构识别文本模式，而Gemini在这些方面呈现出不同特征。ORA发言人还指出，GPTZero等工具并不只看语言的可预测性，也会综合判断全文结构；如果模型能够更自然地推进论述，识别难度也会随之上升。

另一方面，ChatGPT在同一实验中的表现相对靠后。ORA称，ChatGPT作为较早进入市场的大型AI产品之一，其文风特征早已被广泛认知，因此更容易被检测工具识别。报告还提到，许多后发模型在早期曾模仿ChatGPT的写法，但此后逐步形成了各自风格。

不同检测工具之间的识别能力差异同样明显。其中，Grammarly仅识别出全部AI生成内容的43.5%，在三款工具中表现最弱；GPTZero的识别率则接近99%，表现最强。这也意味着，同一篇文章可能因所使用的检测工具不同，而得到“人类写作”或“AI生成”的不同结论。

这种差异在实际场景中可能带来更直接的问题。比如，学生提交的作业可能在一种检测工具中顺利通过，却在另一种工具中被认定违规；职场人士撰写的文档，也可能因所使用的软件不同而引发质疑。对于在线内容来源和可信度的判断标准，今后也可能因工具差异而进一步分化。

此外，AI写作的文风并未朝单一方向收敛，反而正变得更加多样。近期还有研究提出，线上内容中“近一半可能由AI生成”。随着各模型风格持续分化，建立在单一“AI文体”假设上的检测方式，正面临越来越明显的局限。

整体来看，这项测试所反映的未必是Gemini“写得更好”，而是其输出目前更接近人类读者的阅读感受。尽管检测工具仍会持续迭代，其他模型也可能朝类似方向演进，但可以确定的是，人类写作与AI写作之间的边界正在迅速变得模糊。

Yoonseo Lee yslee@d-today.co.kr

关键词