据《The Register》3日(当地时间)报道,Netflix发布并开源视频AI模型VOID,可在视频中删除特定对象,并重建符合物理规律的后续画面。
VOID全称为Video Object and Interaction Deletion,是一款视觉语言模型。与传统仅对被删除区域进行补全的视频修复工具不同,VOID不仅能够移除画面中的目标,还会进一步推演:如果该对象从未出现,场景中的其他元素应如何运动,并据此生成后续内容。
例如,在两辆汽车迎面相撞的画面中删除其中一辆车后,VOID可以生成另一辆车继续沿道路行驶的镜头,同时去除碰撞产生的碎片、烟雾和火焰,并将路面补全为完整状态。再如,在有人跳入泳池激起水花的场景中删除该人物后,模型能够生成仿佛从未有人入水的平静水面。
Netflix与索非亚大学(University of Sofia)研究团队在一篇预印本论文中将VOID定义为“面向复杂场景、可执行符合物理规律视频修补(inpainting)的视频对象删除框架”。
所谓inpainting,是指参考周边画面内容,对受损或被删除区域进行自然补全的技术。VOID则将这一能力进一步扩展到视频场景,不仅补齐缺失区域,也一并处理目标消失后连带产生的环境变化。
目前,Netflix已将VOID开源至Hugging Face。类似工具还包括Runway、DiffuEraser和ProPainter等。研究团队表示,在一项面向25人的偏好测试中,VOID获得64.8%的偏好度,显著高于Runway的18.4%。
记者信息