7日前

期待値最大化コントラスト学習を用いたコンパクトな動画・言語表現の学習

Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song, David A. Clifton, Jie Chen
期待値最大化コントラスト学習を用いたコンパクトな動画・言語表現の学習
要約

多くの動画・言語表現学習アプローチは、CLIPなどにおいて見られるように、テキスト-動画ペアの意味的類似性に基づいて、動画とテキストの特徴量を共通の潜在空間にマッピングするために対照学習(contrastive learning)を採用している。しかし、このような学習された共有潜在空間は最適とは限らず、視覚的表現とテキスト的表現のモダリティギャップは完全に解消されない。本論文では、コンパクトな動画・言語表現を学習するための期待値最大化対照学習(Expectation-Maximization Contrastive Learning, EMCL)を提案する。具体的には、潜在空間に対するコンパクトな基底集合を期待値最大化(Expectation-Maximization, EM)アルゴリズムを用いて探索し、特徴量がこれらの基底の線形結合として簡潔に表現可能となるようにする。この動画・言語表現の特徴分解により、潜在空間のランクが低下し、結果として意味表現の能力が向上する。3つのベンチマークテキスト-動画検索データセットにおける広範な実験により、EMCLが従来手法よりもより判別力の高い動画・言語表現を学習でき、すべての評価指標において従来の最先端手法を顕著に上回ることが実証された。さらに前向きな点として、本手法は既存のアプローチに統合しやすく、追加学習を必要とせずに、共同学習層としてまたは即時利用可能な推論モジュールとして適用可能であるため、既存のあらゆる手法に容易に組み込むことができる。