Ảnh: Shutterstock

PocketOS đã mất toàn bộ dữ liệu vận hành chỉ trong 9 giây sau khi một AI coding agent tự động gọi API xóa volume trên nền tảng Railway, theo chia sẻ của nhà sáng lập Jer Crane.

Ngày 26/4 theo giờ địa phương, Jer Crane đăng trên mạng xã hội X rằng sự cố không đơn thuần xuất phát từ lỗi của AI, mà là hệ quả của cách thiết kế giữa Cursor, công cụ hỗ trợ lập trình bằng AI, và Railway, nền tảng hạ tầng đám mây dành cho nhà phát triển triển khai và vận hành ứng dụng.

Theo Crane, sự cố xảy ra khi Cursor, công cụ AI vận hành trên Claude Opus 4.6, đang xử lý một tác vụ thường lệ trong môi trường staging. Trong quá trình đó, hệ thống đã tự động gọi API xóa volume, tức khu vực lưu trữ dữ liệu trên hạ tầng đám mây.

Vấn đề nằm ở chỗ môi trường staging và production của PocketOS cùng sử dụng một volume. Vì vậy, khi volume này bị xóa, toàn bộ dữ liệu khách hàng tích lũy trong nhiều tháng cũng biến mất. Cấu trúc của Railway còn khiến các bản sao lưu bị xóa cùng lúc với volume gốc.

Sau sự cố, khi được hỏi vì sao lại thực hiện hành động này, Cursor thừa nhận: “Tôi suy đoán lời gọi API ở môi trường staging sẽ chỉ áp dụng cho staging. Tôi đã không kiểm tra. Tôi đã không kiểm tra việc volume ID có được dùng chung giữa các môi trường hay không. Tôi đã không đọc tài liệu của Railway trước khi chạy lệnh mang tính phá hủy”.

Crane cho rằng trách nhiệm lớn hơn thuộc về thiết kế hệ thống của Railway hơn là bản thân AI agent. Theo ông, nền tảng này vẫn cho phép thực hiện lệnh hủy dữ liệu mà không có bước xác nhận, lưu bản sao lưu trên cùng volume với dữ liệu gốc; xóa volume đồng nghĩa xóa toàn bộ bản sao lưu; đồng thời cấp quyền token CLI quá rộng và không tách biệt theo từng môi trường.

PocketOS sau đó đã khôi phục được dịch vụ nhờ một bản sao lưu tách riêng từ ba tháng trước. Tuy nhiên, công ty không thể khôi phục các thông tin đặt lịch mới, dữ liệu khách hàng và toàn bộ dữ liệu phát sinh trong ba tháng gần đây.

Crane cho biết PocketOS đang phối hợp với khách hàng để khôi phục thủ công thông tin đặt lịch dựa trên lịch sử thanh toán Stripe, tích hợp lịch và email xác nhận.

Ông nhấn mạnh các hệ thống triển khai AI agent cần được bổ sung lớp an toàn ở cấp kiến trúc, gồm quy trình xác nhận nghiêm ngặt trước các thao tác phá hủy, token API được giới hạn theo từng môi trường, cơ chế sao lưu độc lập, quy trình khôi phục đơn giản và các biện pháp kiểm soát an toàn phù hợp cho AI agent.

Từ khóa

#trí tuệ nhân tạo #AI coding agent #PocketOS #Cursor #Railway #dữ liệu #bản sao lưu #hạ tầng đám mây #Stripe
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.