仅基于维多利亚时代语料训练的语言模型“Mr. Chatterbox”发布

生成中...

Jinju Hong

发布时间 2026-04-02 11:48:34

搜索关键词

“Mr. Chatterbox”是仅基于特定历史时期公开文献训练的语言模型案例。图片来源：Shutterstock

一款仅基于英国维多利亚时代公开文献、从零训练而成的语言模型“Mr. Chatterbox”正式发布。

据外媒Gizmodo报道，该模型从1837年至1899年的文献中筛选出2.8035万份资料作为训练语料。

“Mr. Chatterbox”的核心特点，在于将训练语料严格限定在特定历史时期。开发者Trip Venturella基于AI平台Hugging Face上公开的英国国家图书馆数据集，仅选取维多利亚时代相关资料构建训练集。英国国家图书馆此前与Microsoft合作，将超过2500万页已进入公版领域的图书和文献整理成数据集并对外开放，而这次则是在海量公开资料中，进一步聚焦单一时代语料进行建模。

模型规模约为3.4亿参数。据介绍，其体量与OpenAI的GPT-2 Medium相近。若与近期的大模型竞赛相比，它仍属于小型模型，但由于训练范围被限制在单一时代文本，因而更强调呈现维多利亚时代的文风和知识背景。

Trip Venturella表示，该模型更贴近维多利亚时代的生活、文学、科学、哲学和礼仪语境。他建议用户围绕铁路、水晶宫、达尔文进化论或“绅士行为准则”等主题提问，以更直观地感受模型呈现出的时代风格。换句话说，这一模型并不追求覆盖最新常识或广泛主题，而是着重还原特定历史时期文本所反映的世界观。

不过，Trip Venturella也承认，“Mr. Chatterbox”当前仍只是测试版，回复可能出现不稳定或不够自然的情况；如果生成效果不理想，用户可能需要要求模型重新作答。这也意味着，该模型在公开发布时，开发者已明确提示其使用体验可能存在波动。

此次发布也表明，即便仅依赖不存在版权争议的公开资料，仍可以训练出面向特定主题、特定时代的专用模型。不过，若要仅凭“限定年代”的语料进一步提升更通用的对话质量，后续仍需补充训练数据，并持续改进模型和优化稳定性。

Jinju Hong hongjj@d-today.co.kr