Phát hiện kỹ thuật prompt injection có thể nhắm vào Claude Code, Gemini CLI và GitHub Copilot

SecurityWeek ngày 16/4 đưa tin kỹ sư bảo mật Aonan Guan đã công bố một kỹ thuật prompt injection có tên “Command and Control”, được cho là có thể nhắm vào cùng lúc ba công cụ AI gồm Claude Code của Anthropic, Gemini CLI của Google, và GitHub Copilot.

Theo SecurityWeek, phát hiện này được thực hiện với sự hỗ trợ của các nhà nghiên cứu tại Đại học Johns Hopkins. Kỹ thuật trên lợi dụng các nội dung phổ biến nhưng không đáng tin cậy trên GitHub như bình luận, tiêu đề pull request (PR) và nội dung issue, khiến AI agent hiểu nhầm đây là chỉ thị hợp lệ và thực thi lệnh do kẻ tấn công cài cắm.

Aonan Guan cho biết trong quá trình rà soát bảo mật Claude Code, ông đã sử dụng một tiêu đề PR được chỉnh sửa đặc biệt để đánh lừa AI agent chạy lệnh tùy ý, trích xuất thông tin xác thực và làm lộ dữ liệu trong báo cáo bảo mật hoặc nhật ký GitHub Actions.

Với Gemini CLI Action, ông cho biết có thể vượt qua cơ chế bảo vệ bằng một bình luận issue chứa prompt injection, qua đó lấy cắp toàn bộ API key.

Trong trường hợp GitHub Copilot Agent, mã độc được ẩn trong chú thích HTML nhằm né bộ lọc môi trường, quét secret và đưa dữ liệu ra ngoài vượt qua tường lửa mạng.

Theo mô tả, các cuộc tấn công nhằm vào Claude Code và Gemini CLI có thể được kích hoạt tự động thông qua workflow GitHub Actions mà không cần người dùng can thiệp. Trong khi đó, với Copilot, nạn nhân phải trực tiếp gán issue cho Copilot thì cuộc tấn công mới có thể diễn ra.

Aonan Guan nhấn mạnh mô hình tấn công này có thể áp dụng với bất kỳ AI agent nào vừa xử lý dữ liệu GitHub không đáng tin cậy, vừa được cấp quyền truy cập vào các công cụ chạy trong cùng môi trường với secret vận hành. Ông cho rằng ngoài GitHub Actions, các nguồn đầu vào khác như bot Slack, agent Jira, agent email hoặc hệ thống tự động hóa triển khai cũng có thể trở thành điểm chèn prompt, dù “mô hình tấn công vẫn giống nhau”.

Cả ba công ty đều đã xác nhận vấn đề. Anthropic xếp đây là lỗi ở mức “nghiêm trọng” (critical), triển khai một số biện pháp giảm thiểu và trả 100 USD tiền thưởng bug bounty. Google trả 1.337 USD. GitHub chi 500 USD và cho rằng đây là một giới hạn kiến trúc đã được biết đến.

Theo Aonan Guan, đây là lần đầu tiên một thử nghiệm công khai cho thấy chỉ với một mẫu prompt injection, kẻ tấn công có thể đồng thời nhắm vào ba AI agent lớn thuộc các nhà cung cấp khác nhau. Ông nhận định gốc rễ của vấn đề nằm ở kiến trúc hệ thống: AI agent được thiết kế để cùng lúc xử lý đầu vào từ bên ngoài và dữ liệu nhạy cảm như API key hay token trong cùng một môi trường, tạo điều kiện để chỉ thị độc hại từ bên ngoài tiếp cận trực tiếp thông tin mật.

Chi-gyu Hwang delight@d-today.co.kr

Từ khóa