MLCVNet:3次元物体検出のための多レベルコンテキスト投票ネットワーク

本稿では、自己注意機構(self-attention mechanism)とマルチスケール特徴融合を用いて、多段階の文脈情報(multi-level contextual information)を捉えることで、3Dオブジェクト検出タスクに取り組む。既存の多数の3Dオブジェクト検出手法は、個々のオブジェクトを独立して認識する一方で、それらオブジェクト間の文脈情報を考慮しない。これに対し、最先端のVoteNetを基盤として、3Dオブジェクトを相関的に認識するための新しいアプローチとして、多段階文脈投票ネットワーク(Multi-Level Context VoteNet, MLCVNet)を提案する。VoteNetの投票段階および分類段階に、異なるレベルの文脈情報を符号化するための3つの文脈モジュールを導入する。具体的には、対応するオブジェクト重心点の投票を行う前に、点パッチ間の文脈情報を捉える「パッチ対パッチ文脈モジュール(Patch-to-Patch Context, PPC)」を採用する。その後、提案生成および分類段階の前段に「オブジェクト対オブジェクト文脈モジュール(Object-to-Object Context, OOC)」を組み込み、オブジェクト候補間の文脈情報を捉える。さらに、グローバルなシーン文脈を学習するための「グローバルシーン文脈モジュール(Global Scene Context, GSC)」を設計し、パッチレベル、オブジェクトレベル、シーンレベルの文脈情報をそれぞれ効果的に捉えることを実証した。本手法は、検出精度の向上に有効であり、困難な3Dオブジェクト検出データセット(SUN RGB-DおよびScanNet)において、新たな最先端性能を達成した。また、本研究の実装コードをGitHubにて公開しており、URLは https://github.com/NUAAXQ/MLCVNet である。