2ヶ月前

視野範囲を超えて:Clip-Recurrent Transformer を用いたシーンの可視性と認識の向上

Hao Shi; Qi Jiang; Kailun Yang; Xiaoting Yin; Ze Wang; Kaiwei Wang
視野範囲を超えて:Clip-Recurrent Transformer を用いたシーンの可視性と認識の向上
要約

ビジョンセンサは車両、ロボット、および道路沿いのインフラストラクチャに広く応用されています。しかし、ハードウェアコストやシステムサイズの制約により、カメラの視野角(Field-of-View, FoV)はしばしば制限され、十分なカバレッジを提供できないことがあります。しかしながら、時空間的な観点から見れば、過去のビデオストリームからカメラの物理的なFoVを超えた情報を取得することが可能です。本論文では、自動車向けオンラインビデオ補完の概念を提案し、視野角を拡大することでシーンの可視性、認識能力、およびシステム安全性を向上させる方法について述べます。この目的を達成するために、光学フローを明示的に利用し、特徴量伝播のために新しいクリップ再帰変換器を暗黙的に組み込んだFlowLensアーキテクチャを導入します。FlowLensには以下の2つの主要な特徴があります:1) FlowLensは時間経過とともに蓄積されたグローバル情報の逐次処理を行うために新設計された3D分離クロスアテンション(3D-Decoupled Cross Attention, DDCA)を持つクリップ再帰ハブ(Clip-Recurrent Hub)を含んでいます。2) ローカル特徴量の正確な空間フローを強化するためにマルチブランチミックス融合フィードフォワードネットワーク(Mix Fusion Feed Forward Network, MixF3N)が統合されています。訓練と評価を容易にするため、外FoV拡張シナリオと内FoV拡張シナリオの両方に対応する様々なFoVマスクを持つKITTI360データセットを作成しました。また、異なるモデル間でFoVを超えたセマンティクスとFoVを超えた物体検出に関する定量的評価と定性的比較を行いました。FlowLensを使用して未見シーンを再構築することで、信頼性のあるセマンティックコンテキストを提供し、視野角内の認識能力も向上させることを示しています。オンラインおよびオフラインビデオ補完だけでなくFoVを超えた認識タスクにも関連する広範な実験とユーザースタディを通じて、FlowLensが最先端の性能を達成していることが証明されました。ソースコードとデータセットはhttps://github.com/MasterHow/FlowLensで公開されています。

視野範囲を超えて:Clip-Recurrent Transformer を用いたシーンの可視性と認識の向上 | 最新論文 | HyperAI超神経