这项研究不仅量化了AI文本在互联网上的扩散规模,也刻画了网络表达风格的变化。图片来源:Shutterstock

一项最新研究显示,自2022年ChatGPT问世以来,新上线网站中约有35%可能包含AI生成内容,或由AI辅助完成写作。

据日本ITmedia 5月11日报道,来自英国Imperial College London、美国非营利机构Internet Archive以及美国Stanford University的研究团队在论文《AI生成文本对互联网的影响》(The Impact of AI-Generated Text on the Internet)中披露了上述结论。

研究团队选取了2022年8月至2025年5月期间上线的网站作为样本,并借助Internet Archive运营的网页存档服务Wayback Machine进行分析。为避免样本过度集中于特定域名,团队按月随机抽取约1万个URL,提取网页文本后,再通过AI文本检测工具进行分类。

在比较多款工具后,研究最终采用“Pangram v3”作为检测方案。团队表示,该工具在长短文本、不同模型(包括GPT、Claude、Gemini)及多语言环境下,均能保持较高且稳定的准确率。基于检测结果,研究将文本划分为“纯AI生成”“AI辅助写作”和“纯人工撰写”三类。

这项研究关注的并不只是AI文本的占比。研究团队指出,公众对互联网变化的感受,与大规模网页文本分析所得出的结果之间存在一定落差。问卷调查显示,多数受访者担心,AI会导致错误信息增加,并削弱个人独特文风,使网络内容趋于雷同。

不过,从大规模网页文本分析结果来看,研究并未发现互联网整体事实准确性明显下滑的证据;至于“文风趋同”的担忧,实际程度也未达到公众主观感受中的水平。

相比之下,另有两项变化更为明显。

其一,语义多样性正在收窄。研究发现,AI生成网站群体的内容相似度较人工撰写网站高出33%。团队解释称,AI通常会回避极端观点,更倾向于给出平均、稳妥的回答,这与研究结果基本一致,也意味着线上内容中的多元视角和原创表达可能受到挤压。

其二,“positivity shift”所体现的过度积极倾向更加突出。有AI参与生成的网站,其正向情绪得分较人工撰写网站高出107%。研究团队认为,这反映出AI为了降低用户反感,更倾向于采用更明亮、温和的表达方式。

基于上述结果,研究认为,当前互联网的变化更接近于语气和表达方式的偏移,而非虚假信息的爆发式增长。团队指出,风险的核心未必是赤裸裸的谎言或谣言扩散,而在于带有AI特征的、不够尖锐且偏于明亮的表达正在增多,在线文本也在逐步变得更圆滑、更趋于“标准化”。

研究进一步指出,这一趋势表明,生成式AI已不再只是单纯的写作辅助工具,而是开始影响整个互联网的表达方式。未来需要关注的,不仅是AI生成信息的规模,还包括哪些语气与视角会在网络空间中逐渐固化为“标准答案”。

关键词

#生成式AI #ChatGPT #互联网文本 #AI文本检测 #Internet Archive #Wayback Machine #Imperial College London #Stanford University #内容相似度 #情绪分析
版权所有 © DigitalToday。未经授权禁止转载或传播。