6ヶ月前

マルチモーダル表現

ビデオ理解

ディープラーニング

マルチモーダル

コンピュータビジョン

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

概要

多くの動画・言語表現学習アプローチは、CLIPなどにおいて見られるように、テキスト-動画ペアの意味的類似性に基づいて、動画とテキストの特徴量を共通の潜在空間にマッピングするために対照学習（contrastive learning）を採用している。しかし、このような学習された共有潜在空間は最適とは限らず、視覚的表現とテキスト的表現のモダリティギャップは完全に解消されない。本論文では、コンパクトな動画・言語表現を学習するための期待値最大化対照学習（Expectation-Maximization Contrastive Learning, EMCL）を提案する。具体的には、潜在空間に対するコンパクトな基底集合を期待値最大化（Expectation-Maximization, EM）アルゴリズムを用いて探索し、特徴量がこれらの基底の線形結合として簡潔に表現可能となるようにする。この動画・言語表現の特徴分解により、潜在空間のランクが低下し、結果として意味表現の能力が向上する。3つのベンチマークテキスト-動画検索データセットにおける広範な実験により、EMCLが従来手法よりもより判別力の高い動画・言語表現を学習でき、すべての評価指標において従来の最先端手法を顕著に上回ることが実証された。さらに前向きな点として、本手法は既存のアプローチに統合しやすく、追加学習を必要とせずに、共同学習層としてまたは即時利用可能な推論モジュールとして適用可能であるため、既存のあらゆる手法に容易に組み込むことができる。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル表現

ビデオ理解

ディープラーニング

マルチモーダル

コンピュータビジョン

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

概要

多くの動画・言語表現学習アプローチは、CLIPなどにおいて見られるように、テキスト-動画ペアの意味的類似性に基づいて、動画とテキストの特徴量を共通の潜在空間にマッピングするために対照学習（contrastive learning）を採用している。しかし、このような学習された共有潜在空間は最適とは限らず、視覚的表現とテキスト的表現のモダリティギャップは完全に解消されない。本論文では、コンパクトな動画・言語表現を学習するための期待値最大化対照学習（Expectation-Maximization Contrastive Learning, EMCL）を提案する。具体的には、潜在空間に対するコンパクトな基底集合を期待値最大化（Expectation-Maximization, EM）アルゴリズムを用いて探索し、特徴量がこれらの基底の線形結合として簡潔に表現可能となるようにする。この動画・言語表現の特徴分解により、潜在空間のランクが低下し、結果として意味表現の能力が向上する。3つのベンチマークテキスト-動画検索データセットにおける広範な実験により、EMCLが従来手法よりもより判別力の高い動画・言語表現を学習でき、すべての評価指標において従来の最先端手法を顕著に上回ることが実証された。さらに前向きな点として、本手法は既存のアプローチに統合しやすく、追加学習を必要とせずに、共同学習層としてまたは即時利用可能な推論モジュールとして適用可能であるため、既存のあらゆる手法に容易に組み込むことができる。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

期待値最大化コントラスト学習を用いたコンパクトな動画・言語表現の学習 | 記事 | HyperAI超神経