Anthropic đang thận trọng với việc phát hành Claude Mythos, mô hình AI mới được đánh giá có năng lực rất mạnh trong việc phát hiện và khai thác lỗ hổng phần mềm. Công ty hiện chỉ cấp quyền truy cập sớm cho khoảng 50 tổ chức thông qua dự án Glasswing.
Theo Anthropic, Mythos đã phát hiện hàng nghìn lỗ hổng trên các hệ điều hành và trình duyệt lớn. Trong số đó có một lỗi trên OpenBSD tồn tại suốt 27 năm và một lỗi trong FFmpeg kéo dài 16 năm.
Mythos cũng tạo ra 181 đoạn mã tấn công dựa trên các lỗ hổng được tìm thấy trong Firefox. Mức này vượt xa mô hình chủ lực trước đó của Anthropic, vốn chỉ tạo được 2 đoạn mã.
Bình luận về cách tiếp cận nói trên, nhà mật mã học và chuyên gia an ninh Bruce Schneier gần đây viết trên website cá nhân rằng đây là hướng đi gần với mô hình công bố có trách nhiệm mà giới nghiên cứu bảo mật theo đuổi từ lâu. Tuy nhiên, theo ông, lượng thông tin hiện được Anthropic công bố vẫn quá ít để có thể đánh giá đúng quyết định này.
Schneier cho rằng những gì Anthropic đưa ra mới chỉ là các trường hợp thành công nổi bật, trong khi chưa làm rõ Mythos mắc sai sót với tần suất ra sao.
Ông cho biết Anthropic nói rằng các chuyên gia bảo mật bên ngoài có mức độ đồng thuận 89% với cách Mythos chấm mức độ nghiêm trọng của lỗ hổng. Theo Schneier, con số này “ấn tượng nhưng chưa đầy đủ”.
Schneier nói các nghiên cứu độc lập về những mô hình tương tự trước đây từng chỉ ra rằng AI càng giỏi phát hiện lỗi thật thì càng dễ đưa ra các kết luận sai nhưng nghe có vẻ hợp lý, bao gồm cả việc coi những đoạn mã bình thường hoặc đã được vá là lỗ hổng. “Nếu không biết Mythos sai thường xuyên đến mức nào, không thể chỉ dựa vào con số 89% để đi đến kết luận”, ông nói.
Theo Schneier, đây là vấn đề có ý nghĩa rất lớn. “Một mô hình có thể phát hiện và khai thác chính xác hàng trăm lỗ hổng sẽ làm thay đổi cuộc chơi. Nhưng nếu mô hình tạo ra hàng nghìn cảnh báo sai, con người có chuyên môn vẫn phải xử lý phần lớn công việc. Nếu không biết tỷ lệ sai, rất khó xác định những ví dụ Anthropic công bố có phản ánh toàn cảnh hay chỉ là phần đã được chọn lọc”, ông nhận định.
Schneier cũng cho rằng các LLM như Mythos thường hoạt động tốt nhất khi đầu vào tương đồng với dữ liệu huấn luyện. Với phần mềm, Mythos được huấn luyện nhiều trên các dự án mã nguồn mở công khai trên Internet, các trình duyệt lớn, kernel Linux và những framework web phổ biến.
Vì vậy, việc ưu tiên cấp quyền truy cập sớm cho các nhà cung cấp phần mềm chủ chốt được xem là hợp lý, do họ có thể vá lỗi trước khi bị kẻ tấn công lợi dụng. Tuy nhiên, theo Schneier, tình hình sẽ khác khi mô hình được áp dụng vào các lĩnh vực phần mềm nằm ngoài phần dữ liệu mà nó đã được huấn luyện sâu.
Ông cho rằng Mythos sẽ gặp khó khăn hơn khi tìm lỗ hổng trong các hệ thống điều khiển công nghiệp, firmware của thiết bị y tế, hạ tầng tài chính được tùy biến riêng, phần mềm ngân hàng nội địa và các hệ thống nhúng cũ. Schneier cảnh báo rằng một kẻ tấn công có kiến thức chuyên ngành có thể biến năng lực suy luận nâng cao của Mythos thành công cụ tấn công nhằm vào những hệ thống mà đội ngũ kỹ sư của Anthropic không có chuyên môn sâu. “Rủi ro không nằm ở chỗ Mythos thất bại trong các lĩnh vực đó, mà ở khả năng nó thành công khi rơi vào tay một kẻ tấn công có chuyên môn”, ông nói.
Từ đó, Schneier nhấn mạnh cần mở rộng quyền truy cập cho các bác sĩ tim mạch am hiểu bảo mật thiết bị y tế, kỹ sư hệ thống điều khiển, cũng như các nhà nghiên cứu về ngôn ngữ và hệ sinh thái công nghệ ít phổ biến nhằm giảm bớt bất đối xứng về chuyên môn. “Dù có chọn lọc kỹ đến đâu, 50 tổ chức cũng không thể thay thế nguồn chuyên môn phân tán trong toàn bộ cộng đồng nghiên cứu”, ông nhận định.
Schneier cũng lưu ý rằng Anthropic là một công ty tư nhân, bị giới hạn về nhân lực, ngân sách và chuyên môn, nhưng lại đang đơn phương quyết định hạ tầng nào được ưu tiên bảo vệ trước. Theo ông, cách làm này tất yếu sẽ để sót một số điểm mù. “Nếu phần bị bỏ sót là phần mềm trong bệnh viện hay lưới điện, cái giá sẽ do những người không có tiếng nói trong quá trình ra quyết định phải gánh chịu”, ông nói.
Theo Schneier, rủi ro bảo mật do AI gây ra không chỉ giới hạn ở Mythos. Ông cho biết OpenAI cũng từng tuyên bố không phát hành rộng rãi GPT-5.3-Codex vì cho rằng mô hình này quá nguy hiểm. Trong khi đó, công ty an ninh Aisle đã tái hiện được nhiều trường hợp mà Anthropic công bố bằng một mô hình AI mã nguồn mở nhỏ hơn và rẻ hơn.
Schneier nhận định về lâu dài vẫn cần có khung quản lý phù hợp, nhưng việc xây dựng quy định đúng đắn sẽ mất nhiều thời gian và kéo theo không ít tranh luận. Vì vậy, ở thời điểm hiện tại, ông cho rằng các công ty như Anthropic cần chia sẻ nhiều dữ liệu và thông tin hơn với cộng đồng rộng lớn hơn.
Ông nhấn mạnh rằng mình không kêu gọi phát hành đại trà một mô hình mạnh như Mythos, mà đề xuất công bố tối đa dữ liệu và thông tin cần thiết để cộng đồng có thể cùng đưa ra quyết định dựa trên bằng chứng. Schneier cũng kêu gọi thiết lập cơ chế hợp tác quốc tế cho hoạt động kiểm toán độc lập, bắt buộc công bố các chỉ số hiệu năng tổng hợp, đồng thời hỗ trợ giới học thuật và các tổ chức xã hội dân sự tiếp cận những thông tin này.