Jung Min-jae, kỹ sư AI Safety của Selectstar và là tác giả chính của nghiên cứu về “Starting”. Ảnh: Selectstar

Selectstar, công ty chuyên về đánh giá dữ liệu và độ tin cậy AI, ngày 14/5 cho biết công nghệ red teaming do doanh nghiệp phát triển, mang tên “Starting”, đã được chấp nhận tại ACL 2026, hội nghị quốc tế hàng đầu về xử lý ngôn ngữ tự nhiên.

Nghiên cứu được chấp nhận tại hội nghị tập trung vào phương pháp red teaming tự động nhằm kiểm định độ an toàn của các mô hình ngôn ngữ lớn (LLM). Đây là cách đánh giá độ an toàn của AI bằng cách chủ động đưa ra các yêu cầu có hại để phát hiện lỗ hổng trong mô hình.

Theo Selectstar, Starting ứng dụng mô hình toán học dựa trên vật lý thống kê để học mối liên hệ giữa chiến lược tấn công và phản hồi của mô hình. Trên cơ sở đó, hệ thống tự chọn chiến lược có xác suất thành công cao hơn. Khác với các phương pháp trước đây vốn chủ yếu lặp lại các mẫu tấn công từng thành công, công nghệ này phân tích lượng lớn dữ liệu thử nghiệm, bao gồm cả thất bại, để tự tìm ra chiến lược phù hợp cho từng tình huống.

Trong thử nghiệm trên 17 LLM, gồm Claude, Gemma, GPT, Llama và Qwen, Starting đạt tỷ lệ tấn công thành công trung bình 74,5% trên bộ benchmark. Mức này cao hơn 13,5 điểm phần trăm so với phương pháp tốt nhất trước đó là AutoDAN-Turbo, đạt 61,0%.

Selectstar cho biết công nghệ trên đã được tích hợp vào Datumo Platform, giải pháp kiểm định độ tin cậy AI của công ty. Nền tảng này hiện được áp dụng trong các lĩnh vực chủ chốt trong nước như điện tử - gia dụng, tích hợp hệ thống và dịch vụ IT, đồng thời tham gia các dự án mô hình nền tảng AI nội địa do chính phủ chủ trì.

Jung Min-jae, kỹ sư AI Safety của Selectstar và là tác giả chính của nghiên cứu, cho biết: “Chúng tôi muốn đề xuất một khuôn khổ giúp phát hiện lỗ hổng AI một cách có hệ thống hơn”.

Ông nói thêm công ty sẽ tiếp tục nâng cấp công nghệ trên Datumo Platform, nhằm hỗ trợ việc triển khai LLM an toàn hơn trong môi trường công nghiệp thực tế.

Từ khóa

#Selectstar #red teaming #Starting #LLM #ACL 2026 #NLP #AI safety
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.