16日前

Pix2Vox++:単一および複数画像からのマルチスケールコンテキスト感知型3Dオブジェクト再構成

Haozhe Xie, Hongxun Yao, Shengping Zhang, Shangchen Zhou, Wenxiu Sun
Pix2Vox++:単一および複数画像からのマルチスケールコンテキスト感知型3Dオブジェクト再構成
要約

近年、深層ニューラルネットワークを用いて単一または複数の画像から物体の3D形状を復元する研究が注目を集めている。主流の手法(例:3D-R2N2)では、入力画像の特徴マップを逐次的に統合するため、再帰型ニューラルネットワーク(RNN)が用いられている。しかし、RNNベースのアプローチは、同じ入力画像を異なる順序で与えた場合に一貫した再構成結果を生成できないという問題を抱えている。さらに、長期記憶の喪失により、初期の入力画像から得られる重要な特徴を忘れてしまう可能性がある。こうした課題に対処するため、本研究では単視点および多視点3D物体再構成を実現する新しいフレームワーク、Pix2Vox++を提案する。本手法は、設計されたエンコーダ・デコーダ構造により、各入力画像から粗い3Dボリュームを生成する。次に、マルチスケールのコンテキストに配慮した融合モジュールを導入し、複数の粗い3Dボリュームから異なる部位に応じて高品質な再構成を適応的に選択して、統合された3Dボリュームを生成する。さらに、統合された3Dボリューム内の誤って再構成された領域を補正するため、リファイナを導入して最終出力を生成する。ShapeNet、Pix3D、Things3Dのベンチマークにおける実験結果から、Pix2Vox++は精度および効率の両面で、最新の手法と比較しても優れた性能を示している。

Pix2Vox++:単一および複数画像からのマルチスケールコンテキスト感知型3Dオブジェクト再構成 | 最新論文 | HyperAI超神経