NVIDIAは、複数の写真を基に3Dシーンを生成するAIモデル「ArtiFixer」を発表した。参照画像に写っていない領域まで生成して補完することで、従来の3D再構成で課題となっていた品質低下やシーンの不整合を抑えるとしている。
23日付のGigazineによると、ArtiFixerは動画生成AI「Wan 2.1」をベースに開発した約169億パラメータのモデルだ。限られた視点の画像から、写っていない部分を新たに生成して補う手法を中核に据え、高品質な3Dシーン生成を目指した。
研究では、複数画像から3Dシーンを構築する「3Dガウシアン・スプラッティング」の課題に対応した。従来手法では、シーン全体の一貫性を保ちにくく、撮影されていない領域では形状が崩れやすいケースがあったという。ArtiFixerは、見えていない領域を生成して補うことで、こうした問題の改善を図る。
学習は2段階で実施した。まず、画像に含まれない領域を生成して埋めるモデルを学習させ、次にその知識を自己回帰モデルへ蒸留した。この自己回帰モデルは、1フレームから数百フレームの画像を生成する。単純な再構成にとどまらず、限られた視点入力からより広いシーンをつなぎ合わせる設計にしたとしている。
NVIDIAは、関連モデルとして3つの構成を公開した。ベースとなる「ArtiFixer」は自己回帰型のマルチビュー画像生成モデル。「ArtiFixer3D」は、その出力を3D表現に蒸留する構成だ。さらに、自己回帰モデルを後処理として再適用する「ArtiFixer3D+」も提示した。
比較結果も公表している。NVIDIAによると、ArtiFixerは比較的鮮明なシーンを生成し、ArtiFixer3Dは一貫性に優れる一方でややぼやける傾向がある。これに対し、ArtiFixer3D+は鮮明さと一貫性を両立したという。3DGUT、GenFusion、GSFixerなど他方式との比較でも、ArtiFixer3D+がより高品質な3Dシーンを生成したとしている。
実利用への応用も見込む。NVIDIAは、物体の多い屋内写真のような複雑な環境でも高品質な3Dシーンを生成できるとしており、限られた写真から屋内空間や複雑な物体配置を復元する用途での活用可能性を示した。
NVIDIAは研究ページとHugging Faceを通じて関連情報を公開した。今回の発表は、写真ベースの3D再構成が単なる再現にとどまらず、見えない領域まで生成して補う段階に進みつつあることを示している。今後は、実際の3D制作パイプラインにどこまで安定して適用できるかが焦点となりそうだ。