
要約
視覚-意味論埋め込みは、関連する視覚的および言語的なインスタンスが互いに近くなる共有潜在空間を見つけることを目指しています。現在の大多数の手法は、インスタンスを共有空間内の単一の点にマッピングする単射埋め込み関数を学習します。しかし、単射埋め込みは複数の意味を持つ多義的なインスタンスを効果的に処理できません;最善の場合でも、異なる意味の平均表現を見つけ出すだけです。これは、個々のインスタンスとそのクロスモーダルな関連性がしばしば曖昧である実世界のシナリオでの使用を妨げます。本研究では、多頭自己注意と残差学習を用いて、全体的なコンテキストと局所ガイド特徴量を組み合わせることで、一つのインスタンスに対して複数かつ多様な表現を計算する「多義的インスタンス埋め込みネットワーク(PIE-Nets)」を導入します。視覚-意味論埋め込みを学習するために、二つのPIE-Netsを結合し、多重インスタンス学習フレームワーク内で共同で最適化します。既存の大半のクロスモーダル検索に関する研究は画像-テキストデータに焦点を当てていますが、本研究ではより困難なビデオ-テキスト検索にも取り組んでいます。ビデオ-テキスト検索に関するさらなる研究を促進するため、ソーシャルメディアから収集した5万件のビデオ-文ペアからなる新しいデータセット「MRW (my reaction when)」を公開します。MS-COCO, TGIF, そして我々の新しいMRWデータセットを使用して、画像-テキストおよびビデオ-テキスト検索シナリオにおけるアプローチを示します。