17日前
RGB-D Transformersを用いた効率的なマルチタスクシーン解析
Söhnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard Rabes, Horst-Michael Gross

要約
自律システム、特に移動型ロボットが現実世界の環境で動作可能となるためには、シーン解析が不可欠である。しかし、シーンの包括的な理解を得るには、パノプティックセグメンテーション、インスタンスの方向推定、シーン分類といった複数のタスクを同時に解決する必要がある。こうしたタスクを、モバイルプラットフォームにおける制限された計算能力およびバッテリー容量の下で実現することは極めて困難である。本研究では、RGB-D Transformerベースのエンコーダを用いて、上記の複数タスクを同時に行う効率的なマルチタスクシーン解析手法「EMSAFormer」を提案する。本手法は以前に発表されたEMSANetをベースとしているが、本研究ではEMSANetに採用されていた二重CNNベースのエンコーダを単一のTransformerベースのエンコーダに置き換えることが可能であることを示す。この実現のため、RGBデータと深度データの両方から得られる情報を単一のエンコーダ内で効果的に統合する方法を検討した。また、ロボットハードウェア上で推論処理を高速化するために、独自のNVIDIA TensorRT拡張を提供し、EMSAFormerの高度な最適化を実現している。標準的な屋内データセットであるNYUv2、SUNRGB-D、ScanNetを用いた広範な実験の結果、本手法は最先端の性能を達成するとともに、NVIDIA Jetson AGX Orin 32GB上で最大39.1 FPSの推論速度を実現できることを示した。