15日前

画像-テキスト検索におけるディープメトリック学習損失関数の解明

Hong Xuan, Xi Chen
画像-テキスト検索におけるディープメトリック学習損失関数の解明
要約

視覚的・意味的埋め込み(Visual-Semantic Embedding: VSE)は、画像とテキストのモダリティ間の共同埋め込み空間を学習することで、意味的類似性を保持するというアプローチとして、画像-テキスト検索において広く用いられている。多くのVSE手法において、ハードネガティブマイニングを用いたトライアングル損失(triplet loss)が標準的な目的関数として採用されている。近年、画像領域における深層メトリック学習(Deep Metric Learning: DML)の進展により、従来のトライアングル損失を上回る新たな損失関数が提案されており、本研究では、画像-テキストマッチングにおけるVSEのためのより優れた目的関数の探索という問題を再考する。既存のDML損失関数の多くは、埋め込み空間上で経験的に定義されている一方で、勾配の移動に基づく損失設計の試みも一部見られる。しかし、これらの損失関数をそのまま適用すると、モデルパラメータに対する勾配更新が非最適となる可能性がある。そこで本研究では、既存のDML関数における勾配の組み合わせと再重み付けを体系的に分析するための新しいフレームワーク、すなわち「勾配ベースの目的関数分析フレームワーク(Gradient-based Objective AnaLysis: GOAL)」を提案する。この分析フレームワークを活用することで、勾配空間における異なる勾配組み合わせを探索する新たな目的関数の族を構築する。勾配が有効な損失関数に統合できない場合でも、本研究ではこれらの目的関数を埋め込み空間における損失関数ではなく、勾配空間上で直接操作する形で実装する。広範な実験により、提案する新規目的関数が、異なる視覚的/テキスト特徴量およびモデルアーキテクチャにおいて、ベースラインを一貫して上回る性能を達成することが示された。さらに、GOALフレームワークの汎用性を検証するために、視覚・言語モデルにおける重いクロスモーダル相互作用を伴うトライアングル族損失を用いたモデルへの拡張も行い、COCOおよびFlick30Kにおける画像-テキスト検索タスクで最先端の性能を達成した。

画像-テキスト検索におけるディープメトリック学習損失関数の解明 | 最新論文 | HyperAI超神経