
テキストから画像への人物検索は、与えられた文章記述クエリに基づいて目標の人物を識別することを目指しています。主な課題は、視覚と文章のモダリティを共通の潜在空間にマッピングすることです。従来の研究では、この課題に対処するために、視覚と文章の特徴を抽出するために個別に事前学習された単一モーダルモデルを利用しようと試みられてきました。しかし、これらのアプローチには、マルチモーダルデータを効果的に照合するための必要な基礎的なアライメント能力が欠けています。さらに、これらの研究では先験情報を利用して明示的な部位アライメントを探求しており、これはモーダル内情報の歪みにつながる可能性があります。これらの問題を緩和するため、私たちはIRRA(Implicit Relation Reasoning and Aligning:暗黙関係推論およびアライメント)というクロスモーダルなフレームワークを提案します。このフレームワークは、局所的な視覚-文章トークン間の関係を学習し、グローバルな画像-文章照合を強化しますが、追加の先験監督は必要としません。具体的には、まずマスク言語モデリングパラダイムで暗黙関係推論モジュールを設計しました。これにより、クロスモーダルマルチモーダル相互作用エンコーダーを使用して視覚的ヒントを文章トークンに統合することで、クロスモーダル相互作用が実現されます。次に、視覚と文章の埋め込みをグローバルに照合するために、類似度分布マッチングが提案されました。これは画像-文章類似度分布と正規化されたラベル照合分布間のKLダイバージェンス(Kullback-Leibler divergence)を最小化することによって達成されます。提案手法は3つの公開データセットすべてにおいて新たな最先端結果を達成しており、従来手法と比較してランク1精度で約3%-9%の有意な改善が見られています。