KT ngày 16/6 công bố KSAFE-MM, bộ benchmark đánh giá an toàn dành cho các mô hình AI đa phương thức, được xây dựng cho môi trường tiếng Hàn và bối cảnh văn hóa Hàn Quốc.
Theo KT, KSAFE-MM là bộ benchmark an toàn dành cho mô hình ngôn ngữ lớn đa phương thức (MLLM), do hãng phối hợp phát triển cùng Korea University.
Bộ dữ liệu này được dùng để đánh giá mức độ an toàn của các mô hình AI có khả năng xử lý đồng thời văn bản, hình ảnh và âm thanh trong ngữ cảnh tiếng Hàn và văn hóa Hàn Quốc. KSAFE-MM gồm hai hợp phần: KSAFE-MM-G, chuyển các yếu tố rủi ro phổ quát toàn cầu sang bối cảnh văn hóa Hàn Quốc; và KSAFE-MM-C, phản ánh những vấn đề đặc thù của xã hội Hàn Quốc như gian lận trong thuê nhà theo hình thức jeonse hay tranh chấp Dokdo.
Tổng số mẫu đánh giá trong bộ dữ liệu là 14.135. Nhóm nghiên cứu của KT và Korea University đã dùng KSAFE-MM để kiểm chứng mức độ an toàn của 12 mô hình MLLM toàn cầu, bao gồm Gemma và HyperCLOVA X.
KT đồng thời xây dựng một pipeline dùng chung, tự động hóa toàn bộ quá trình từ thu thập dữ liệu đến tạo câu hỏi đánh giá, nhằm khắc phục hạn chế của các benchmark an toàn hiện nay vốn phụ thuộc nhiều vào đánh giá thủ công, tốn kém chi phí và thời gian. Pipeline này gồm 4 bước tự động, bao phủ từ thu thập các chủ đề nhạy cảm dựa trên cộng đồng địa phương, tạo truy vấn theo mẫu, tạo ảnh tổng hợp đến tạo truy vấn jailbreak.
Theo KT, cách tiếp cận này cho phép nhanh chóng xây dựng benchmark an toàn phản ánh đặc tính địa phương mà không phụ thuộc vào chuyên gia của từng khu vực văn hóa. Nhóm nghiên cứu cho biết cũng đã xác nhận khả năng mở rộng sang các bối cảnh văn hóa khác thông qua một thử nghiệm thí điểm với tiếng Nhật, qua đó tạo ra JSAFE-MM-C.
Kết quả nghiên cứu cùng bộ benchmark đã được công bố trên arXiv và nền tảng AI mã nguồn mở Hugging Face.
Ông Park Jae-hyung, Giám đốc điều hành FrontierAI Lab thuộc Viện Công nghệ Tương lai KT AX, cho biết việc công bố bộ benchmark an toàn sẽ tạo nền tảng để hệ sinh thái nghiên cứu về an toàn AI cùng phát triển. Ông kỳ vọng KSAFE-MM sẽ trở thành chuẩn tham chiếu chung để kiểm chứng an toàn AI theo tiếng Hàn và bối cảnh văn hóa Hàn Quốc trong cả giới học thuật lẫn công nghiệp.