6ヶ月前

マルチモーダル表現

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

概要

現代の動画-テキスト検索フレームワークは、基本的に3つの構成要素からなる：動画エンコーダ、テキストエンコーダ、および類似度ヘッドである。視覚的表現学習およびテキスト表現学習の成功に伴い、トランスフォーマーに基づくエンコーダおよび統合手法も、動画-テキスト検索分野に導入されつつある。本報告では、トランスフォーマーに基づく手法における重要な要素がどこにあるかを明らかにすることを目的として、CLIP2TVを提案する。これを達成するため、まず多モーダル学習に関する最近の研究を再検討し、その技術を動画-テキスト検索に適用した後、さまざまな設定において広範な実験を通じてその有効性を評価した。注目すべきは、CLIP2TVがMSR-VTTデータセットにおいて52.9@R1を達成し、従来のSOTA（最先端）結果を4.1%上回ったことである。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル表現

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

概要

現代の動画-テキスト検索フレームワークは、基本的に3つの構成要素からなる：動画エンコーダ、テキストエンコーダ、および類似度ヘッドである。視覚的表現学習およびテキスト表現学習の成功に伴い、トランスフォーマーに基づくエンコーダおよび統合手法も、動画-テキスト検索分野に導入されつつある。本報告では、トランスフォーマーに基づく手法における重要な要素がどこにあるかを明らかにすることを目的として、CLIP2TVを提案する。これを達成するため、まず多モーダル学習に関する最近の研究を再検討し、その技術を動画-テキスト検索に適用した後、さまざまな設定において広範な実験を通じてその有効性を評価した。注目すべきは、CLIP2TVがMSR-VTTデータセットにおいて52.9@R1を達成し、従来のSOTA（最先端）結果を4.1%上回ったことである。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

CLIP2TV：ビデオ・テキスト検索のためのアライメント、マッチング、およびディスティル化 | 記事 | HyperAI超神経