Theo The Register, ngày 3/4 theo giờ địa phương, Netflix công bố VOID, mô hình AI có khả năng xóa một vật thể khỏi video và tái tạo phần còn lại của cảnh theo diễn biến hợp lý về mặt vật lý.
VOID, viết tắt của Video Object and Interaction Deletion, là một mô hình thị giác-ngôn ngữ (VLM). Khác với các công cụ chỉ xóa vật thể khỏi khung hình, VOID còn dựng lại chuyển động và tương tác của những yếu tố còn lại như thể vật thể đó không tồn tại ngay từ đầu.
Chẳng hạn, trong cảnh hai xe lao vào nhau, nếu xóa một chiếc xe, VOID sẽ tạo lại cảnh chiếc xe còn lại tiếp tục di chuyển trên đường. Những chi tiết phát sinh sau va chạm như mảnh vỡ, khói hay lửa cũng được loại bỏ và thay bằng mặt đường nguyên vẹn. Tương tự, với cảnh một người nhảy xuống hồ bơi làm nước bắn tung tóe, nếu xóa người này, mô hình sẽ tái tạo video như thể mặt nước vốn đang yên ả.
Nhóm nghiên cứu của Netflix và Sofia University, đơn vị phát triển VOID, cho biết trong một bản thảo preprint rằng đây là “khung xóa vật thể trong video được thiết kế để thực hiện inpainting hợp lý về mặt vật lý trong các tình huống phức tạp”.
Inpainting là kỹ thuật lấp đầy một cách tự nhiên những phần bị xóa hoặc hư hỏng trong ảnh, tranh hoặc video bằng cách tham chiếu nội dung xung quanh.
Netflix đã công bố VOID trên Hugging Face để bất kỳ ai cũng có thể cài đặt và sử dụng. Dù thị trường đã có một số công cụ tương tự như Runway, DiffuEraser và ProPainter, nhóm nghiên cứu cho biết trong khảo sát với 25 người tham gia, VOID được đánh giá cao nhất với tỷ lệ 64,8%, so với 18,4% của Runway.