“Mr. Chatterbox”是仅基于特定历史时期公开文献训练的语言模型案例。图片来源:Shutterstock

一款仅基于英国维多利亚时代公开文献、从零训练而成的语言模型“Mr. Chatterbox”正式发布。

据外媒Gizmodo报道,该模型从1837年至1899年的文献中筛选出2.8035万份资料作为训练语料。

“Mr. Chatterbox”的核心特点,在于将训练语料严格限定在特定历史时期。开发者Trip Venturella基于AI平台Hugging Face上公开的英国国家图书馆数据集,仅选取维多利亚时代相关资料构建训练集。英国国家图书馆此前与Microsoft合作,将超过2500万页已进入公版领域的图书和文献整理成数据集并对外开放,而这次则是在海量公开资料中,进一步聚焦单一时代语料进行建模。

模型规模约为3.4亿参数。据介绍,其体量与OpenAI的GPT-2 Medium相近。若与近期的大模型竞赛相比,它仍属于小型模型,但由于训练范围被限制在单一时代文本,因而更强调呈现维多利亚时代的文风和知识背景。

Trip Venturella表示,该模型更贴近维多利亚时代的生活、文学、科学、哲学和礼仪语境。他建议用户围绕铁路、水晶宫、达尔文进化论或“绅士行为准则”等主题提问,以更直观地感受模型呈现出的时代风格。换句话说,这一模型并不追求覆盖最新常识或广泛主题,而是着重还原特定历史时期文本所反映的世界观。

不过,Trip Venturella也承认,“Mr. Chatterbox”当前仍只是测试版,回复可能出现不稳定或不够自然的情况;如果生成效果不理想,用户可能需要要求模型重新作答。这也意味着,该模型在公开发布时,开发者已明确提示其使用体验可能存在波动。

此次发布也表明,即便仅依赖不存在版权争议的公开资料,仍可以训练出面向特定主题、特定时代的专用模型。不过,若要仅凭“限定年代”的语料进一步提升更通用的对话质量,后续仍需补充训练数据,并持续改进模型和优化稳定性。

关键词

#Mr. Chatterbox #语言模型 #维多利亚时代 #英国国家图书馆 #Hugging Face #Trip Venturella #Microsoft #GPT-2 Medium #公开数据集 #公版文献
版权所有 © DigitalToday。未经授权禁止转载或传播。