2ヶ月前

再帰的なシーン解析における透視理解のループ

Shu Kong; Charless Fowlkes
再帰的なシーン解析における透視理解のループ
要約

シーンの透視図像では、物体が任意のスケールで現れることがあり、固定解像度で画像を処理する認識システムにとって課題となっています。本研究では、物体のスケール(深さに逆比例)に応じて畳み込みネットワークアーキテクチャ内のプーリングフィールドサイズを適応的に選択する深度感知ゲートモジュールを提案します。これにより、遠くの物体の小さな詳細が保存されると同時に、近い物体にはより大きな受容器領域が使用されます。深度ゲート信号はステレオ視差から提供されるか、単眼入力から直接推定されます。我々はこの深度感知ゲートを再帰的な畳み込みニューラルネットワークに統合し、セマンティックセグメンテーションを行う方法を開発しました。再帰モジュールは前回のイテレーションからの深度とセマンティック予測を利用して、セグメンテーション結果を反復的に洗練します。4つの人気のある大規模RGB-Dデータセットを用いた広範な実験を通じて、本手法が大幅にコンパクトなモデルで競争力のあるセマンティックセグメンテーション性能を達成することを示しています。さらに、単眼RGB上で動作するバリアントや訓練中に深度を使用する補助情報、非監督ゲートとして一般的な注意メカニズム、多分解能ゲートなどについて広範な分析を行いました。その結果、共同セマンティックセグメンテーションと深度に対する制御プーリングが定量的な単眼深度推定において最先端の結果をもたらすことが確認されました。

再帰的なシーン解析における透視理解のループ | 最新論文 | HyperAI超神経