11日前

キャリブレートド・クロスモーダル検索のためのリレーションアライメント学習

Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang
キャリブレートド・クロスモーダル検索のためのリレーションアライメント学習
要約

大規模なマルチモーダル事前学習アプローチの進展にもかかわらず、画像・テキスト間のクロスモーダル検索(例:画像-テキスト検索)は依然として困難な課題である。両モーダル間の意味的ギャップを埋めるために、従来の研究は主にオブジェクトレベルにおける単語と領域の対応(word-region alignment)に注力してきたが、単語間の言語的関係と領域間の視覚的関係の一致を捉えることにはあまり注目していなかった。このような関係的一貫性の無視は、画像-テキストペアの文脈的表現能力を損なうとともに、モデルの性能向上と解釈可能性の向上を阻害している。本論文では、まず、言語的関係と視覚的関係の間の意味的距離を測定することで、関係的一貫性を定量化する新しい指標である「内部モーダル自己注意距離(Intra-modal Self-attention Distance, ISD)」を提案する。これに対応して、ISDを最適化し、両モーダルの内部自己注意機構を相互に補正するための正則化手法として、「内部モーダル自己注意における外部モーダル整合(Inter-modal Alignment on Intra-modal Self-attentions, IAIS)」を提案する。IAIS正則化器は、Flickr30kおよびMS COCOデータセットにおいて、既存の主流モデルの性能を著しく向上させ、本手法の優位性を実証している。

キャリブレートド・クロスモーダル検索のためのリレーションアライメント学習 | 最新論文 | HyperAI超神経