11日前

翻訳、スケーリング、回転:クロスモーダルアライメントがRGB赤外線車両検出に応用される

Maoxun Yuan, Yinyan Wang, Xingxing Wei
翻訳、スケーリング、回転:クロスモーダルアライメントがRGB赤外線車両検出に応用される
要約

近年、オブジェクト検出においてマルチスペクトルデータ、特に可視光(RGB)画像と赤外線(IR)画像の統合が大きな注目を集めている。可視光(RGB)画像と赤外線(IR)画像は、照明条件の変化に対処するための補完的な情報を提供するため、マルチスペクトル歩行者検出、RGB-IR群衆数カウント、RGB-IR顕著オブジェクト検出など、さまざまな分野で活用されている。自然なRGB-IR画像と比較して、空中からのRGB-IR画像における検出は、モダリティ間の弱い不整合問題に直面しており、これは同じオブジェクトの位置、サイズ、角度のずれとして現れる。本研究では、空中RGB-IR画像におけるモダリティ間弱い不整合問題に焦点を当て、その原因をまず解説・分析する。次に、両モダリティの特徴マップを補正することでこの問題に対処する「トランスレーション・スケール・ローテーションアライメント(TSRA)モジュール」を提案する。このモジュールは、アライメントプロセスを通じて二つのモダリティ間のオブジェクトのずれを予測し、モダリティ選択(MS)戦略を用いてアライメント性能を向上させる。最後に、TSRAモジュールを基盤とする二ストリーム特徴アライメント検出器(TSFADet)を構築し、空中画像におけるRGB-IRオブジェクト検出に適用した。公開データセットDroneVehicleを用いた包括的な実験により、本手法がモダリティ間不整合の影響を低減し、堅牢な検出結果を達成できることを検証した。

翻訳、スケーリング、回転:クロスモーダルアライメントがRGB赤外線車両検出に応用される | 最新論文 | HyperAI超神経