2ヶ月前

Pix2Vox: 単一視点および複数視点画像からの文脈認識型3D再構築

Haozhe Xie; Hongxun Yao; Xiaoshuai Sun; Shangchen Zhou; Shengping Zhang
Pix2Vox: 単一視点および複数視点画像からの文脈認識型3D再構築
要約

単一視点または複数視点のRGB画像から深層ニューラルネットワークを用いて物体の3次元表現を復元する技術は、ここ数年でますます注目を集めています。いくつかの主流の研究(例:3D-R2N2)では、再帰型ニューラルネットワーク(RNN)を使用して、入力画像から逐次的に抽出された複数の特徴マップを融合しています。しかし、同じ入力画像群が異なる順序で与えられた場合、RNNベースの手法は一貫した再構築結果を生成することができません。さらに、長期記憶の損失により、RNNは入力画像を完全に活用して再構築結果を改善することができません。これらの問題を解決するために、我々は単一視点および複数視点の3次元再構築向けに新しいフレームワークであるPix2Voxを提案します。このフレームワークでは、巧妙に設計されたエンコーダー-デコーダーを使用して、各入力画像から粗い3次元ボリュームを生成します。その後、コンテキスト感知融合モジュールが導入され、異なる粗い3次元ボリュームから各部位(例:テーブル脚)に対して高品質な再構築を選択し、融合された3次元ボリュームを得ます。最後に、リファイナが融合された3次元ボリュームをさらに洗練し、最終的な出力を生成します。ShapeNetとPix3Dベンチマークでの実験結果は、提案されたPix2Voxが現行の最先端手法よりも大幅に優れていることを示しています。さらに、逆伝播推論時間において提案手法は3D-R2N2よりも24倍高速です。ShapeNet未見の3次元カテゴリに対する実験では、我々の方法が優れた汎化能力を持っていることが示されました。

Pix2Vox: 単一視点および複数視点画像からの文脈認識型3D再構築 | 最新論文 | HyperAI超神経