17日前

ノイズ付き対応を用いた深層証拠学習によるクロスモーダル検索

{Peng Hu, Xu Wang, Xi Peng, Dezhong Peng, Yang Qin}
要約

クロスモーダル検索は、マルチモーダル分野において重要な研究テーマである。近年、データ収集のコストを低減するため、インターネット上から画像とテキストなどの共起ペアを大規模に収集し、Conceptual Captionsなどの大規模クロスモーダルデータセットとして利用する手法が注目されている。しかし、このような方法は訓練データに必然的にノイズ(すなわち不一致ペア)を導入するという課題を伴い、これを「ノイズのある対応関係(noisy correspondence)」と呼ぶ。このノイズは教師信号の信頼性を損なうだけでなく、性能の顕著な低下を引き起こす。さらに、既存の多くの手法はハードネガティブ例に焦点を当てた学習に偏っているが、これはノイズの信頼性の低さをさらに悪化させる。こうした問題に対処するため、本研究では、新たなクロスモーダル証拠学習パラダイム(CEL)とロバストな動的ヘッジ損失(RDH)を統合した汎用的な深層証拠クロスモーダル学習フレームワーク(DECL)を提案する。CELは、ノイズによって生じる不確実性を捉え、その学習を通じてクロスモーダル検索のロバスト性と信頼性を向上させる。具体的には、クロスモーダル類似度に基づく双方向の証拠をまずモデル化し、ディリクレ分布にパラメータ化することで、正確な不確実性推定を実現するとともに、ノイズのある対応関係に対する摂動に対する耐性を付与する。ノイズの拡大問題に対処するため、RDHは学習対象とするネガティブ例の難易度を滑らかに増加させることで、高ノイズ環境下でも高いロバスト性を実現する。提案手法の有効性と効率性を検証するため、Flickr30K、MS-COCO、Conceptual Captionsの3つの画像-テキストベンチマークデータセット上で広範な実験を実施した。実装コードは、https://github.com/QinYang79/DECL にて公開されている。

ノイズ付き対応を用いた深層証拠学習によるクロスモーダル検索 | 最新論文 | HyperAI超神経