Nvidia vừa công bố ArtiFixer, mô hình trí tuệ nhân tạo có khả năng dựng cảnh 3D từ nhiều ảnh đầu vào và tự bổ sung các vùng khuất để cải thiện độ nhất quán và chất lượng hình ảnh.
Theo Gigazine ngày 23/6 (giờ địa phương), ArtiFixer được phát triển nhằm khắc phục những hạn chế thường gặp ở các phương pháp tái tạo 3D trước đây, đặc biệt là hiện tượng chất lượng suy giảm hoặc cảnh bị thiếu nhất quán khi một số khu vực không xuất hiện trong ảnh tham chiếu.
Mô hình này được xây dựng trên nền tảng AI tạo video Wan 2.1, với quy mô khoảng 16,9 tỷ tham số. Điểm cốt lõi của ArtiFixer là khả năng tạo mới và điền vào những phần không được ghi lại trong ảnh đầu vào, từ đó hỗ trợ tạo ra cảnh 3D có chất lượng cao hơn.
Nghiên cứu của Nvidia tập trung xử lý điểm yếu của 3D Gaussian Splatting, kỹ thuật dựng cảnh 3D từ nhiều ảnh đầu vào. Theo công ty, các phương pháp hiện có thường gặp khó trong việc duy trì độ nhất quán của toàn cảnh, trong khi những vùng không xuất hiện trong ảnh dễ bị méo hoặc thiếu chi tiết. ArtiFixer được thiết kế để giải quyết vấn đề này bằng cách sinh thêm nội dung cho các phần bị thiếu trong dữ liệu gốc.
Quá trình huấn luyện được triển khai theo hai giai đoạn. Ở giai đoạn đầu, nhóm nghiên cứu huấn luyện mô hình có khả năng tạo và lấp các phần còn thiếu. Sang giai đoạn tiếp theo, mô hình được chưng cất thành một mô hình tự hồi quy, có thể tạo ra hàng trăm khung hình từ một khung hình ban đầu. Theo Nvidia, cách tiếp cận này không chỉ dừng ở tái tạo mà còn giúp mở rộng cảnh từ nguồn dữ liệu đầu vào có góc nhìn hạn chế.
Nvidia công bố ArtiFixer dưới ba phiên bản. Bản ArtiFixer tiêu chuẩn là mô hình tự hồi quy tạo ảnh ở nhiều góc nhìn. ArtiFixer3D chưng cất đầu ra đó thành biểu diễn 3D. Trong khi đó, ArtiFixer3D+ tiếp tục áp dụng mô hình tự hồi quy ở bước hậu xử lý.
Cùng với mô hình, Nvidia cũng đưa ra kết quả so sánh giữa các phiên bản. Theo công ty, ArtiFixer tạo ra cảnh có độ sắc nét tương đối cao; ArtiFixer3D cho độ nhất quán tốt hơn nhưng hình ảnh hơi mờ; còn ArtiFixer3D+ đạt được cả độ sắc nét lẫn độ nhất quán. Khi so sánh với các phương pháp khác như 3DGUT, GenFusion và GSFixer, Nvidia cho biết ArtiFixer3D+ cho chất lượng cảnh 3D tốt hơn.
Nvidia cũng định hướng mở rộng phạm vi ứng dụng của mô hình. Công ty cho biết ArtiFixer vẫn có thể tạo cảnh 3D chất lượng cao trong các môi trường phức tạp, chẳng hạn ảnh chụp trong nhà với nhiều vật thể. Mô hình này được đánh giá là phù hợp với các bài toán tái tạo không gian nội thất hoặc cấu trúc vật thể phức tạp từ số lượng ảnh hạn chế.
Hiện Nvidia đã công bố thêm thông tin về ArtiFixer trên trang nghiên cứu và nền tảng Hugging Face. Theo nội dung được giới thiệu, công bố lần này cho thấy công nghệ tái tạo 3D từ ảnh đang chuyển dần từ tái dựng đơn thuần sang hướng tạo sinh, với mục tiêu bổ sung cả những vùng không nhìn thấy trong dữ liệu đầu vào.