Anthropic vừa ra mắt Claude Fable 5, mô hình đầu tiên thuộc cấp độ Mythos được phát hành công khai, đồng thời áp dụng các biện pháp kiểm soát nghiêm ngặt hơn đối với truy vấn liên quan đến an ninh mạng, sinh học và hóa học.
Theo Ars Technica ngày 9/6 (giờ địa phương), Anthropic triển khai tách biệt giữa phiên bản công khai và các mô hình bị hạn chế truy cập nhằm ngăn năng lực nâng cao của hệ thống bị lợi dụng cho mục đích xấu.
Theo Anthropic, Fable 5 đã vượt dòng Opus, vốn trước đó là nhóm mô hình cao cấp nhất của hãng, về hiệu năng tổng thể. Tuy nhiên, với các truy vấn được xếp vào nhóm nhạy cảm, phiên bản công khai sẽ tự động chuyển sang Claude Opus 4.8 và đồng thời thông báo cho người dùng về việc chuyển đổi này.
Fable 5 sử dụng cùng nền tảng mô hình đang được cung cấp qua Project Glasswing cho một số nhân sự an ninh mạng được Anthropic đánh giá là đáng tin cậy.
Anthropic cho biết cơ chế an toàn này được đặt ở mức thận trọng hơn cả mức lý tưởng. Vì vậy, một số yêu cầu vô hại vẫn có thể bị từ chối đối với người dùng phổ thông.
Dù vậy, kết quả thử nghiệm cho thấy tỷ lệ false positive chiếm dưới 5% tổng số phiên làm việc. Công ty cho rằng đây là biện pháp cần thiết để ngăn hệ thống cung cấp năng lực gây hại nghiêm trọng cho các đối tượng xấu, những năng lực vốn khó tiếp cận bằng các phương thức thông thường.
Trọng tâm của lớp bảo vệ này là bộ phân loại chủ đề cùng hệ thống phát hiện nỗ lực jailbreak. Fable 5 được thiết kế để nhận diện trên diện rộng các nhóm prompt bị cấm, đồng thời chặn cả những cách nhập liệu nhằm lách quy định.
Anthropic cho biết sau hơn 1.000 giờ kiểm thử red team, bao gồm cả chương trình bug bounty, các nhóm nghiên cứu bên ngoài vẫn chưa tìm ra kỹ thuật jailbreak mang tính phổ quát đối với Fable 5. Công ty cũng cho biết khả năng chống lại các nỗ lực jailbreak tự động đã cải thiện đáng kể so với các mô hình Claude Opus trước đây.
Một lĩnh vực mà Anthropic đặc biệt cảnh giác là “agentic hacking”. Theo công ty, mô hình mới có thể hỗ trợ các cuộc tấn công mạng nhiều bước dễ dàng hơn đáng kể so với thế hệ trước.
Tuy nhiên, đánh giá gần đây của Viện An ninh AI Vương quốc Anh cho thấy Mythos Preview đạt kết quả tương đương OpenAI GPT-5.5 trong bộ đánh giá về tấn công mạng. Anthropic cho biết rất khó diễn giải đây là ưu thế áp đảo của riêng một mô hình cụ thể.
Năng lực an ninh mạng của mô hình đã tăng rõ rệt. Mythos 5 đạt 78% trên ExploitBench, thước đo khả năng khai thác mã có lỗ hổng, cao hơn nhiều so với mức 40% của Opus 4.8 và 69% của Mythos Preview.
Anthropic cho biết chính mức tăng hiệu năng này là một trong những lý do buộc hãng phải thu hẹp phạm vi phát hành công khai.
Với lĩnh vực sinh học và hóa học, Anthropic cũng mở rộng phạm vi hạn chế. Trước đây, công ty chỉ chặn các câu hỏi liên quan đến vũ khí sinh học, nhưng từ Fable 5, bộ phân loại đã được áp dụng cho toàn bộ lĩnh vực sinh học và hóa học.
Theo đánh giá của công ty, các đối tượng xấu có đủ nguồn lực tài chính và nhân sự có thể tiến hành nghiên cứu sinh học rủi ro cao hiệu quả hơn nhiều so với trước đây, chỉ thông qua những truy vấn bề ngoài có vẻ vô hại. Anthropic cũng cho rằng ngay cả thông tin hữu ích với chuyên gia an ninh mạng hoặc nhà nghiên cứu khoa học sự sống, nếu rơi vào tay kẻ xấu, cũng có thể làm gia tăng rủi ro.
Vì vậy, Anthropic xây dựng cơ chế kiểm soát trực tiếp quyền truy cập đối với các mô hình có năng lực rủi ro cao. Project Glasswing dự kiến sẽ được mở rộng theo từng giai đoạn, phối hợp cùng Chính phủ Mỹ.
Công ty cũng triển khai một chương trình truy cập tin cậy mới dành cho các tổ chức khoa học sự sống. Chương trình này sẽ nới lỏng hạn chế với sinh học và hóa học, nhưng vẫn giữ nguyên các giới hạn liên quan đến an ninh mạng.
Bên cạnh đó, Anthropic công bố mức giá cho API và gói doanh nghiệp ở mức 10 USD cho mỗi 1 triệu token đầu vào và 50 USD cho mỗi 1 triệu token đầu ra.
Người dùng đang đăng ký hiện có thể sử dụng Fable 5 đến ngày 22/6. Sau thời điểm này, họ sẽ phải mua thêm tín dụng sử dụng riêng.