17日前
効率的なマルチタスクRGB-Dシーン解析:屋内環境向け
Daniel Seichter, Söhnke Benedikt Fischedick, Mona Köhler, Horst-Michael Groß

要約
モバイルエージェントが多様な環境で動作するためには、意味的シーン理解が不可欠である。既存の意味的セグメンテーション技術は多くの情報を提供しているが、個々の物体に関する詳細情報およびシーン全体の概要が欠落しており、多くの現実世界の応用において必要とされる。一方で、複数のタスクを個別に処理することは計算コストが高く、モバイルプラットフォームにおける限られた計算能力およびバッテリー容量を考慮すると、リアルタイムでの処理は困難である。本論文では、RGB-Dシーン解析を効率的に行うマルチタスクアプローチ(EMSANet)を提案する。本手法は、一度のネットワーク処理で意味的セグメンテーションとインスタンスセグメンテーション(パノプティックセグメンテーション)、インスタンスの方位推定、シーン分類を同時に行う。我々は、モバイルプラットフォーム上で単一のニューラルネットワークを用いてすべてのタスクをリアルタイムで実行可能であり、性能の低下を伴わずに実現できることを示す。また、個々のタスクが互いに相互に恩恵を及ぼすことで、全体的な性能向上が可能となることを明らかにする。本マルチタスクアプローチの評価のため、一般的なRGB-D室内データセットであるNYUv2およびSUNRGB-Dのアノテーションを、インスタンスセグメンテーションおよび方位推定に対応するように拡張した。本研究の知見によれば、我々はNYUv2およびSUNRGB-Dにおける室内シーン解析において、このような包括的なマルチタスク設定での結果を初めて提示した。