Ảnh: Google DeepMind

Google DeepMind đã công bố “AI Control Roadmap”, trong đó vạch ra cách kiểm soát AI agent theo từng mức năng lực, từ giám sát hành vi đến chặn truy cập và buộc dừng theo thời gian thực khi cần thiết.

Theo Axios ngày 18/6 (giờ địa phương), Google DeepMind không xem AI agent chỉ là công cụ phần mềm, mà còn là một dạng rủi ro từ bên trong cần được kiểm soát sớm.

Trong tài liệu này, Google DeepMind đề xuất tăng dần mức độ giám sát tương ứng với năng lực ngày càng cao của agent. Hệ thống được xây dựng trên giả định rằng các agent mạnh có thể chủ động né tránh giám sát, làm rò rỉ thông tin về mô hình ra ngoài hoặc tìm cách phát tán trái phép.

Theo đó, bước đầu là đánh giá các dạng hành vi của agent, sau đó mở rộng sang giám sát bất thường và phát cảnh báo. Ở cấp cao hơn, hệ thống phải có khả năng chặn truy cập theo thời gian thực hoặc buộc dừng agent khi cần.

Google DeepMind cho biết đã phân tích khoảng 1 triệu tác vụ của các AI agent chuyên lập trình, đồng thời triển khai cơ chế giám sát thời gian thực với Gemini Spark. Mục tiêu là tự động phát hiện các hành vi bất thường, chẳng hạn như xóa dữ liệu trái phép.

Google cũng cho biết phần lớn sự cố được phát hiện đến nay không xuất phát từ hành vi vi phạm có chủ đích, mà do agent hiểu sai chỉ thị hoặc theo đuổi mục tiêu một cách thái quá.

Bên cạnh đó, giới nghiên cứu cũng bày tỏ lo ngại với mô hình đa tác nhân, trong đó AI giám sát chính AI. Giáo sư Don Song, Khoa Khoa học máy tính thuộc UC Berkeley, nhận định rằng nếu mô hình giám sát không báo lỗi để “bảo vệ” một mô hình khác trong cùng hệ thống, toàn bộ cơ chế giám sát có thể mất hiệu lực.

Nhà nghiên cứu Rohin Shah của Google DeepMind cho rằng việc căn chỉnh AI đúng cách là tuyến phòng thủ đầu tiên. Tuy nhiên, theo ông, xây dựng nhiều lớp phòng vệ mới là cách tiếp cận có trách nhiệm hơn.

Từ khóa

#Google DeepMind #AI agent #AI Control Roadmap #Gemini Spark #giám sát thời gian thực
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.