2ヶ月前

マルチビュー検出とシャドウトランスフォーマー(およびビュー間一貫性データ拡張)

Hou, Yunzhong ; Zheng, Liang
マルチビュー検出とシャドウトランスフォーマー(およびビュー間一貫性データ拡張)
要約

マルチビュー検出は、遮蔽物を処理するために複数のカメラビューを組み込むものであり、その中心的な問題はマルチビュー集約です。複数のビューから共通の地上平面上への特徴マップ投影が与えられた場合、最先端の手法ではこの問題を畳み込みを通じて解決しています。これは物体の位置に関わらず同じ計算を適用します。しかし、このような移動不変性の挙動は最適な選択とは限りません。物体の特徴は、その位置やカメラによって様々な投影歪みを経験するためです。本論文では、新しく導入されたシャドウトランスフォーマーを用いてマルチビュー情報を集約する革新的なマルチビューデテクター(MVDeTr)を提案します。畳み込みと異なり、シャドウトランスフォーマーは異なる位置やカメラに対して異なる注意を払うことで、様々な影のような歪みに対処します。私たちはまた、マルチビューの一貫性を維持しながらランダムな拡張を行う新しい視点一貫データ拡張方法を含む効果的な学習スキームも提案しています。2つのマルチビューアンノテーションベンチマークにおいて、提案システムによる新たな最先端精度を報告しています。コードは https://github.com/hou-yz/MVDeTr で公開されています。

マルチビュー検出とシャドウトランスフォーマー(およびビュー間一貫性データ拡張) | 最新論文 | HyperAI超神経