11日前

言語ガイダンスを画像・テキストマッチングに統合して誤って否定されるケースを修正する

{Zhongtian Du, Jenq-Neng Hwang, Zerun Feng, Caili Guo, Zheng Li}
要約

画像―文章マッチング(Image-Text Matching: ITM)は、画像と文章の間に対応関係を確立することを目的としている。ITMは、視覚と言語の理解に関するさまざまなタスクの基盤となる。しかし、現在のITMベンチマークの構築方法には限界がある。ITMベンチマークは、画像と文章のペアを収集する段階で構築されるため、収集時にペア化されたサンプルのみがポジティブとしてラベル付けされ、それ以外のすべてのサンプルがネガティブとしてラベル付けされる。このようにラベル付けされたネガティブサンプルの中には、実際には文章と対応する画像が含まれている場合が多く、これらの対応関係が見逃されている。たとえば、ある文章が収集時に1つの画像とペア化された場合、その画像のみがその文章に対してポジティブとラベル付けされ、他のすべての画像はネガティブとラベル付けされる。しかし、これらのネガティブとラベル付けされた画像の中には、実際には文章と対応するものも存在する。このような誤ってネガティブとラベル付けされたサンプルは「偽ネガティブ(false negatives)」と呼ばれる。現在のITMモデルは、このような誤ラベルを含むアノテーションに基づいて最適化されているため、学習過程においてノイズが導入される可能性がある。本論文では、偽ネガティブを修正するための言語ガイダンス(Language Guidance: LG)を統合したITMフレームワークを提案する。このフレームワークでは、言語事前学習モデルを導入し、偽ネガティブを識別する。さらに、偽ネガティブを修正するために、視覚・意味空間における偽ネガティブの位置を適応的に補正する「言語ガイダンス損失(language guidance loss)」を提案する。2つのITMベンチマークを用いた広範な実験の結果、本手法は既存のITMモデルの性能を向上させることを示した。偽ネガティブの修正効果を検証するため、さらにECCV Captionデータセットを用いた追加実験を行った。ECCV Captionは、アノテーション内の偽ネガティブが事前に修正された検証済みデータセットである。実験結果から、本手法がより多くの関連する偽ネガティブを再検出できることを確認した。

言語ガイダンスを画像・テキストマッチングに統合して誤って否定されるケースを修正する | 最新論文 | HyperAI超神経