研究：ChatGPT问世后，新上线网站约35%可能含AI生成或辅助内容

这项研究不仅量化了AI文本在互联网上的扩散规模，也刻画了网络表达风格的变化。图片来源：Shutterstock

一项最新研究显示，自2022年ChatGPT问世以来，新上线网站中约有35%可能包含AI生成内容，或由AI辅助完成写作。

据日本ITmedia 5月11日报道，来自英国Imperial College London、美国非营利机构Internet Archive以及美国Stanford University的研究团队在论文《AI生成文本对互联网的影响》（The Impact of AI-Generated Text on the Internet）中披露了上述结论。

研究团队选取了2022年8月至2025年5月期间上线的网站作为样本，并借助Internet Archive运营的网页存档服务Wayback Machine进行分析。为避免样本过度集中于特定域名，团队按月随机抽取约1万个URL，提取网页文本后，再通过AI文本检测工具进行分类。

在比较多款工具后，研究最终采用“Pangram v3”作为检测方案。团队表示，该工具在长短文本、不同模型（包括GPT、Claude、Gemini）及多语言环境下，均能保持较高且稳定的准确率。基于检测结果，研究将文本划分为“纯AI生成”“AI辅助写作”和“纯人工撰写”三类。

这项研究关注的并不只是AI文本的占比。研究团队指出，公众对互联网变化的感受，与大规模网页文本分析所得出的结果之间存在一定落差。问卷调查显示，多数受访者担心，AI会导致错误信息增加，并削弱个人独特文风，使网络内容趋于雷同。

不过，从大规模网页文本分析结果来看，研究并未发现互联网整体事实准确性明显下滑的证据；至于“文风趋同”的担忧，实际程度也未达到公众主观感受中的水平。

相比之下，另有两项变化更为明显。

其一，语义多样性正在收窄。研究发现，AI生成网站群体的内容相似度较人工撰写网站高出33%。团队解释称，AI通常会回避极端观点，更倾向于给出平均、稳妥的回答，这与研究结果基本一致，也意味着线上内容中的多元视角和原创表达可能受到挤压。

其二，“positivity shift”所体现的过度积极倾向更加突出。有AI参与生成的网站，其正向情绪得分较人工撰写网站高出107%。研究团队认为，这反映出AI为了降低用户反感，更倾向于采用更明亮、温和的表达方式。

基于上述结果，研究认为，当前互联网的变化更接近于语气和表达方式的偏移，而非虚假信息的爆发式增长。团队指出，风险的核心未必是赤裸裸的谎言或谣言扩散，而在于带有AI特征的、不够尖锐且偏于明亮的表达正在增多，在线文本也在逐步变得更圆滑、更趋于“标准化”。

研究进一步指出，这一趋势表明，生成式AI已不再只是单纯的写作辅助工具，而是开始影响整个互联网的表达方式。未来需要关注的，不仅是AI生成信息的规模，还包括哪些语气与视角会在网络空间中逐渐固化为“标准答案”。

Jinju Hong (홍진주) hongjj@d-today.co.kr

关键词