Mr. Chatterbox là mô hình ngôn ngữ được huấn luyện từ nguồn tư liệu công khai của riêng một giai đoạn lịch sử. Ảnh: Shutterstock

Mr. Chatterbox, mô hình ngôn ngữ được xây dựng hoàn toàn từ các tài liệu xuất bản công khai tại Anh trong thời Victoria, vừa được giới thiệu. Mô hình sử dụng 28.035 tài liệu thuộc giai đoạn 1837-1899 và hiện vẫn ở bản beta.

Theo Gigazine ngày 1/4, dự án tập trung vào cách huấn luyện mô hình với dữ liệu giới hạn trong một giai đoạn lịch sử cụ thể. Nhà phát triển Trip Venturella sử dụng bộ dữ liệu do British Library công bố trên nền tảng Hugging Face, sau đó lọc riêng các tài liệu thuộc thời Victoria để làm dữ liệu huấn luyện.

Trước đó, British Library phối hợp cùng Microsoft công bố bộ dữ liệu gồm hơn 25 triệu trang sách và tài liệu đã hết hạn bản quyền. Từ kho dữ liệu này, Venturella thu hẹp phạm vi về một thời kỳ cụ thể để xây dựng mô hình.

Mr. Chatterbox có quy mô khoảng 340 triệu tham số, được giới thiệu ở mức tương đương GPT-2 Medium của OpenAI. So với làn sóng mô hình cỡ lớn hiện nay, đây là quy mô khá nhỏ. Tuy nhiên, việc chỉ huấn luyện trên văn bản của một thời đại giúp mô hình tái hiện rõ văn phong và hệ tri thức của giai đoạn đó.

Theo Trip Venturella, mô hình gắn với đời sống, văn học, khoa học, triết học và các chuẩn mực ứng xử xã hội của thời Victoria. Ông cho rằng người dùng có thể đặt câu hỏi về đường sắt, Cung Pha Lê, thuyết tiến hóa của Darwin hay cách hành xử của một quý ông để cảm nhận rõ hơn “cá tính” của mô hình.

Cách tiếp cận này hướng đến việc tái hiện hệ tri thức và góc nhìn của một thời kỳ qua văn bản, thay vì theo đuổi khả năng cập nhật kiến thức mới hoặc bao phủ chủ đề rộng như các chatbot đa năng.

Dù vậy, Venturella cũng thừa nhận mô hình hiện chưa đạt độ hoàn thiện cao. Theo ông, Mr. Chatterbox vẫn là bản beta nên phản hồi có thể thiếu ổn định hoặc chưa đủ tự nhiên; khi gặp lỗi, người dùng có thể yêu cầu tạo lại câu trả lời.

Việc ra mắt mô hình cho thấy vẫn có thể phát triển các hệ thống AI chuyên biệt theo chủ đề hoặc theo từng giai đoạn lịch sử chỉ từ nguồn dữ liệu công khai, không vướng bản quyền. Tuy nhiên, để cải thiện khả năng đối thoại chung từ một tập dữ liệu bị giới hạn theo thời đại, bài toán bổ sung dữ liệu huấn luyện, nâng cấp mô hình và ổn định vận hành vẫn còn bỏ ngỏ.

Từ khóa

#trí tuệ nhân tạo #mô hình ngôn ngữ #Mr. Chatterbox #thời Victoria #Hugging Face #British Library #Microsoft #GPT-2
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.