16日前
RGB-D サリエンシー検出における段階的相互情報量最小化
Jing Zhang, Deng-Ping Fan, Yuchao Dai, Xin Yu, Yiran Zhong, Nick Barnes, Ling Shao

要約
従来のRGB-Dサリエンシー検出モデルは、RGB画像と深度データの間で効果的なマルチモーダル学習を明示的に促進する仕組みを備えていない。本論文では、相互情報量の最小化を用いた新たな段階的カスケード学習フレームワークを提案し、RGB画像と深度データ間のマルチモーダル情報の「明示的」なモデリングを実現する。具体的には、各モーダルの特徴を低次元の特徴ベクトルに写像した後、RGBからの外観特徴と深度からの幾何特徴の間の冗長性を低減するため、相互情報量の最小化を正則化項として導入する。さらに、ネットワークの各段階にわたり相互情報量の最小化制約を段階的に適用する、マルチステージ・カスケード学習を実施する。標準的なRGB-Dサリエンシーデータセットを用いた広範な実験により、本フレームワークの有効性を示した。さらに、この分野の発展を促進するために、NJU2Kよりも7倍大きい(15,625ペア)高品質なポリゴン・スクリブル・オブジェクト・インスタンス・ランクレベルのラベルを備えた、現在最大規模のデータセットを公開する。これらの豊富なラベルを基に、強力なベースラインを備えた4つの新しいベンチマークを構築し、いくつかの興味深い現象を観察した。これらは今後のモデル設計のインスピレーションとなるものである。ソースコードおよびデータセットは「https://github.com/JingZhang617/cascaded_rgbd_sod」で公開されている。