Claude Mythos Preview của Anthropic vừa ghi nhận kết quả nổi bật trong các bài đánh giá an ninh mạng cấp cao, với tỷ lệ vượt qua 73% ở thử thách CTF cấp chuyên gia, đồng thời trở thành mô hình AI đầu tiên hoàn tất mô phỏng tấn công vào mạng doanh nghiệp.
Theo BeInCrypto ngày 14/4, Viện Nghiên cứu An ninh AI (AISI) thuộc Bộ Khoa học, Đổi mới và Công nghệ Anh cho biết trong báo cáo đánh giá mới công bố rằng mô hình này thể hiện năng lực đáng kể ở các bài kiểm tra tấn công mạng mà các hệ thống AI trước đó chưa thể xử lý.
Báo cáo được công bố chỉ ít ngày sau khi Anthropic ra mắt Claude Mythos Preview hôm 7/4. Hiện mô hình này chưa được phát hành rộng rãi, mà mới được cung cấp giới hạn cho một số công ty nghiên cứu bảo mật. Trong thông báo của mình, Anthropic nhấn mạnh Claude Mythos Preview nổi bật ở các tác vụ bảo mật máy tính, đồng thời cho biết đã khởi động Project Glasswing nhằm “giúp những phần mềm quan trọng nhất thế giới an toàn hơn và chuẩn bị các biện pháp ứng phó cần thiết cho ngành”.
Đánh giá của AISI gồm hai giai đoạn. Ở phần thi “capture the flag” (CTF), Claude Mythos Preview đạt tỷ lệ vượt qua 73% với bộ đề cấp chuyên gia, tập trung vào việc phát hiện lỗ hổng và truy tìm các dấu hiệu ẩn. AISI cho biết trước tháng 4/2025, chưa có mô hình nào vượt qua được bài kiểm tra này.
Phần đánh giá còn lại là mô phỏng tấn công mạng doanh nghiệp gồm 32 bước mang tên The Last Offensive (TLO). Theo mô tả, một chuyên gia bảo mật là con người cần khoảng 20 giờ để hoàn thành bài này. Claude Mythos Preview hoàn tất toàn bộ quy trình 3 lần trong 10 lượt thử, với mức trung bình trung bình 22/32 bước. Trong khi đó, mô hình đối chứng Claude Opus 4.6 chỉ đạt trung bình 16 bước.
Dù vậy, nhóm nghiên cứu lưu ý không nên suy rộng các kết quả này thành một mối đe dọa thực tế ngay lập tức. Theo nhóm đánh giá, việc thành công trong một “cyber range” cụ thể cho thấy mô hình đã được đặt trong bối cảnh có quyền truy cập vào mạng và sở hữu năng lực tối thiểu để tự động tấn công các hệ thống doanh nghiệp nhỏ có mức phòng thủ yếu. Tuy nhiên, môi trường thử nghiệm này được thiết kế với độ khó thấp hơn thực tế.
Anthropic cũng công bố kết quả tự đánh giá nội bộ. Công ty cho biết nếu nhận được chỉ dẫn rõ ràng từ người dùng, Claude Mythos Preview có thể phát hiện và khai thác các lỗ hổng zero-day trên những hệ điều hành chủ chốt và các trình duyệt web phổ biến. Dù vậy, hãng nói rằng “hơn 99% lỗ hổng được phát hiện vẫn chưa được vá”, nên việc công bố chi tiết sẽ là “vô trách nhiệm”.
Dù mới được mở quyền truy cập hạn chế, mô hình này đã nhanh chóng thu hút sự chú ý của giới công nghệ và nhà hoạch định chính sách. Reuters dẫn nhiều nguồn tin cho biết Bộ trưởng Tài chính Mỹ Scott Bessent và Chủ tịch Cục Dự trữ Liên bang Mỹ Jerome Powell đã triệu tập một cuộc họp khẩn với lãnh đạo các ngân hàng lớn để cảnh báo về rủi ro liên quan đến mô hình này.
AISI cũng nêu ra các biện pháp ứng phó ưu tiên cho doanh nghiệp, gồm vá lỗi định kỳ, kiểm soát truy cập chặt chẽ, tăng cường cấu hình bảo mật và ghi log đầy đủ. Theo cơ quan này, những điểm cần tiếp tục theo dõi là tốc độ mà năng lực tấn công của AI có thể chuyển hóa thành rủi ro ngoài thực tế, cũng như khả năng doanh nghiệp củng cố phòng thủ ngay từ giai đoạn mô hình mới chỉ được triển khai hạn chế.