实时采集并分析全球新闻与社会数据的GDELT项目(GDELT Project)近日披露多项AI实验,展示其如何利用人工智能处理大规模新闻和政策文本。
据海外科技媒体Gizmodo 3月15日(当地时间)报道,GDELT项目持续收集来自广播、报纸和网络新闻等渠道、以100多种语言发布的内容,并将其汇入全球数据库。该项目把人物、组织、地点、事件和新闻来源等要素连接起来,以数据形式呈现全球事件演变、背景关联和舆论趋势。
GDELT项目由数据科学家Kalev Leetaru与政治学家Philip Schrodt发起,收集1979年至今的新闻和社交媒体数据。这些数据会被量化编码,用于刻画社会事件及其反馈,并为分析全球政治、经济和社会趋势提供基础。
目前,GDELT项目向研究人员和新闻从业者开放大规模数据集,主要包括三类数据流:一是将现实世界事件划分为300多个类别的事件数据;二是记录人物、组织、地点、主题和情绪等要素关联的关系数据;三是针对新闻图片内容的分析数据。上述数据大约每15分钟更新一次。
在跨语言处理方面,GDELT项目建设了一个“跨语言平台”(translingual platform),通过自研翻译系统对全球65种语言的新闻进行实时翻译和处理。
在AI分析应用方面,GDELT项目还展示了一项基于Gemini模型的实验。该系统可从全球新闻中自动识别政府或企业高层人事变动信息,并构建知识图谱。除汇总相关任命和变动内容外,AI还会结合政治、经济背景生成分析报告。
另一项实验则是将约3100页的美国国防授权法案输入AI,尝试把整部法案转化为一张信息图。同时,系统还对法案进行了主题分析、相关法案梳理以及问答内容生成等处理。
GDELT项目还披露了一项大规模翻译实验。根据其2026年2月公布的信息,项目已利用AI完成对过去25年约300万条电视新闻节目的翻译,涉及约620亿字符和60亿秒内容,翻译总成本约为7.4634万美元。GDELT估算,若采用过去的方式,相关成本可能高达数百万美元。
报道指出,此类项目显示出AI在海量新闻和政策文档综合分析方面的应用潜力。数据驱动的分析方法,未来也有望成为观察全球政治和经济趋势的重要工具。