
要約
暗いシーンの理解は、可視画像と補助モダリティの両方とも、タスクに必要な意味情報を限界まで提供するため、困難な課題である。従来の手法は、二つのモダリティを統合することに注力してきたが、ピクセルとラベルを一致させるために損失を最小化する際、意味クラス間の相関を無視しており、結果としてクラス予測の精度が低下していた。本研究では、クラス間の相関を監視情報として用い、モダリティ間およびモダリティ内での同時的な対比学習を実施することで、学習された多モダリティ特徴空間の意味的判別能を向上させる、教師付き多モダリティ対比学習手法を提案する。モダリティ間対比では、異なるモダリティから得られる同一クラスの埋め込み表現が近づき、異クラスのものは遠ざかるように促進する。一方、モダリティ内対比では、各モダリティ内における同一クラスの埋め込みは近く、異クラスの埋め込みは離れるように制約する。本手法は、多様な照明条件や画像モダリティをカバーするさまざまなタスクにおいて検証された。実験結果から、限られた意味情報を有する多モダリティ画像に基づく暗いシーン理解において、意味的判別性の高い特徴空間を構築することで、本手法が効果的に性能を向上させることを示した。従来手法との比較により、本手法が最先端の性能を達成していることが確認された。コードおよび事前学習済みモデルは、https://github.com/palmdong/SMMCL にて公開されている。