Command Palette
Search for a command to run...
3DMV:3次元マルチビュー同時予測を用いた3次元セマンティックシーンセグメンテーション
3DMV:3次元マルチビュー同時予測を用いた3次元セマンティックシーンセグメンテーション
Dai Angela Nieß ner Matthias
概要
本稿では、室内環境におけるRGB-Dスキャンデータに対する3Dセマンティックシーンセグメンテーションを実現する新しい手法3DMVを提案する。従来の手法は、このタスクにジオメトリ情報またはRGBデータのいずれか一方を入力として用いるが、本手法では、3Dとマルチビューの統合的な予測ネットワークを採用し、両方のデータモダリティを統合的に扱うエンドツーエンドのネットワークアーキテクチャを構築する。単にカラー情報をボクセルグリッドに投影して3D空間で処理するのではなく、まず関連するRGB画像から特徴マップを抽出する。その後、微分可能なバックプロジェクション層を用いて、これらの特徴を3Dネットワークのボクセル特徴グリッドにマッピングする。本研究の目的は、複数のフレームを含む3Dスキャンシナリオに対応することであるため、入力となるRGBビュー数が変動する状況に対応するため、マルチビュー平均プーリングを導入している。この2D-3D統合アーキテクチャを用いたRGB情報とジオメトリ情報の学習可能な統合により、既存のベースラインと比較して顕著な性能向上が達成された。具体的には、ScanNet 3Dセグメンテーションベンチマークにおいて、従来のボクセルアーキテクチャの52.8%から、本手法では75%の精度に向上した。