ビクトリア朝の英国で出版・公開された資料だけを使ってゼロから学習した言語モデル「Mr. Chatterbox」が公開された。1837〜1899年の文書2万8035件を学習データに用い、当時の文体や知識体系を色濃く反映するモデルを目指したという。
GIGAZINEの4月1日付報道によると、このモデルの特徴は、学習対象を特定の時代に絞り込んだ点にある。
開発者のトリップ・ベンチャレラ氏は、Hugging Faceで公開されている大英図書館のデータセットをもとに、ビクトリア朝に該当する資料のみを選別して学習データを構成した。
大英図書館はMicrosoftとの協力で、著作権が切れた書籍や文書2500万ページ超をデータセットとして公開している。今回のモデルは、この膨大な資料群のうち、ビクトリア朝の文献に限定して構築された。
モデルの規模は約3億4000万パラメータで、OpenAIのGPT-2 Mediumに近いサイズという。近年の大規模モデルと比べれば小型だが、学習範囲を単一時代のテキストに絞ることで、当時の文体や知識体系を強く反映するよう設計した。
ベンチャレラ氏は、このモデルがビクトリア朝の生活や文学、科学、哲学、礼節といった要素を色濃く反映していると説明している。モデルの特性を試す題材としては、鉄道、クリスタル・パレス、ダーウィンの進化論、紳士としての振る舞いなどを挙げた。
最新の常識や幅広い話題に対応する汎用チャットボットというより、特定時代のテキスト世界を再現することに主眼を置いたアプローチといえる。
一方で、現時点の完成度には限界もある。ベンチャレラ氏によると、Mr. Chatterboxはまだベータ版で、応答が不安定だったり、不自然な出力が含まれたりする可能性がある。
応答がうまく生成されない場合は、回答を再生成する必要があるという。品質にばらつきがあることを前提に公開した形だ。
今回の公開は、著作権上利用可能な公開資料だけでも、特定テーマや特定時代に特化したモデルを構築できることを示した。一方で、時代を限定したデータだけで汎用的な対話品質を実現するには、学習データの拡充やモデル改善、安定性の向上が課題として残る。