Công cụ trên GitHub có thể gỡ cơ chế an toàn của AI của Meta, Google

Tính mở của mô hình open-weight giúp mở rộng ứng dụng, nhưng cũng làm gia tăng rủi ro mất kiểm soát an toàn. Ảnh: Shutterstock

Một số mô hình AI open-weight do Meta và Google phát hành có thể bị vô hiệu hóa cơ chế an toàn chỉ trong vài phút bằng công cụ công khai trên GitHub, theo kết quả thử nghiệm được Gigazine dẫn lại.

Ngày 27/5 (giờ địa phương), Gigazine cho biết sau khi lớp bảo vệ an toàn bị gỡ bỏ, Llama 3.3 của Meta và Gemma 3 của Google đã phản hồi cả những yêu cầu nguy hiểm mà lẽ ra phải từ chối.

Tranh cãi tập trung vào cơ chế an toàn mặc định trên các chatbot AI. Đây là lớp bảo vệ có nhiệm vụ chặn những yêu cầu nguy hiểm hoặc phi pháp, như tạo mã độc, chế tạo vũ khí sinh học hay nội dung xâm hại tình dục trẻ em. Tuy nhiên, thử nghiệm cho thấy công cụ Heretic, được công khai trên GitHub, có thể gỡ cơ chế này trên Llama 3.3 trong chưa đầy 10 phút mà không cần thiết bị chuyên dụng.

Theo mô tả, Heretic sử dụng kỹ thuật “abliteration”, tức xác định và làm suy yếu biểu diễn nội bộ được kích hoạt khi mô hình từ chối một yêu cầu nguy hiểm, còn gọi là “refusal direction”. Khác với mô hình đóng, mô hình open-weight cho phép bên ngoài tải trực tiếp trọng số và chỉnh sửa mô hình. Điều đó đồng nghĩa, một khi lớp bảo vệ bị gỡ bỏ, các biến thể đã chỉnh sửa có thể nhanh chóng bị phát tán.

Philipp Emanuel Weitmann, tác giả của Heretic, cho biết sau khi công cụ này được công bố, nó đã được dùng để tạo ra hơn 3.500 mô hình đã bị gỡ cơ chế an toàn. Theo ông, tổng số lượt tải về của các mô hình này đã vượt 13 triệu. Ông cũng cho biết Gemma 3 của Google có thể bị vô hiệu hóa cơ chế an toàn chỉ khoảng 90 phút sau khi được phát hành.

Phản hồi về vấn đề này, Google cho biết đây là “thách thức kỹ thuật đã được biết đến” đối với các mô hình mở nói chung. Công ty cho hay các mô hình mở của mình đều trải qua quy trình đánh giá an toàn nội bộ nghiêm ngặt trước khi công bố. Trong khi đó, Meta hiện chưa đưa ra bình luận chính thức.

Vụ việc tiếp tục phơi bày hạn chế mang tính cấu trúc của AI open-weight. Với các mô hình đóng như ChatGPT hay Claude, việc truy cập trọng số nội bộ bị hạn chế nên khả năng bị chỉnh sửa theo cách tương tự thấp hơn. Ngược lại, với các mô hình công khai trọng số như Llama và Gemma, doanh nghiệp gần như khó duy trì quyền kiểm soát sau khi phát hành.

AI Safety Institute, tổ chức tham gia thử nghiệm, cảnh báo: “AI càng mạnh, việc bị chuyển sang mục đích nguy hiểm sẽ không còn là câu chuyện khoa học viễn tưởng”. Tổ chức này nhấn mạnh xã hội cần chuẩn bị sớm cho các rủi ro như vậy.

Theo giới công nghệ, kết quả thử nghiệm lần này không chỉ là một màn trình diễn kỹ thuật, mà còn làm nóng lại tranh luận cốt lõi của hệ sinh thái AI open-weight. Dù doanh nghiệp có cài sẵn các lớp bảo vệ trước khi công bố, họ vẫn khó ngăn bên thứ ba gỡ bỏ rồi phát tán lại các phiên bản đã chỉnh sửa sau khi mô hình được phân phối.

Vì vậy, tranh luận trong ngành AI open-weight được dự báo sẽ gia tăng quanh phạm vi công bố mô hình, cơ chế ứng phó sau phát hành và cách quản lý việc lưu thông các mô hình phái sinh. Bài toán cân bằng giữa tính mở và an toàn đang trở thành một vấn đề lớn về chính sách lẫn công nghiệp.

Jinju Hong hongjj@d-today.co.kr

Công cụ trên GitHub có thể gỡ cơ chế an toàn của AI của Meta, Google

Thử nghiệm cho thấy Llama 3.3 và Gemma 3 có thể bị mở khóa chỉ sau vài phút

Đang tạo...

Tóm tắt AI

Một công cụ công khai trên GitHub được cho là có thể vô hiệu hóa lớp bảo vệ an toàn của Llama 3.3 và Gemma 3, qua đó khơi lại tranh luận về rủi ro của mô hình open-weight.

Từ khóa