6ヶ月前

ビデオ理解

Video Captioning

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu

概要

我々は、基礎となる動画-テキストモデルを構築する効率的なアプローチを検討する。本研究では、事前学習済みの画像-テキスト対比キャプションモデル（CoCa）を最大限に再利用し、追加学習を最小限に抑えて動画-テキストタスクに適応する「VideoCoCa」を提案する。従来の手法では、複数フレーム間の融合モジュールを用いて画像-テキストモデルを動画タスクに適応していたが、本研究ではCoCaに内蔵された生成的アテンションプーリングおよび対比的アテンションプーリング層が、フラット化されたフレーム埋め込みに対して即座に適応可能であることを発見した。この特性により、ゼロショット動画分類およびゼロショットテキストから動画への検索において、最先端の性能を達成した。さらに、VideoCoCaの上位に軽量なファインチューニングを適用することで、動画質問応答および動画キャプションタスクにおいても優れた結果を得た。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

Video Captioning

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu

概要

我々は、基礎となる動画-テキストモデルを構築する効率的なアプローチを検討する。本研究では、事前学習済みの画像-テキスト対比キャプションモデル（CoCa）を最大限に再利用し、追加学習を最小限に抑えて動画-テキストタスクに適応する「VideoCoCa」を提案する。従来の手法では、複数フレーム間の融合モジュールを用いて画像-テキストモデルを動画タスクに適応していたが、本研究ではCoCaに内蔵された生成的アテンションプーリングおよび対比的アテンションプーリング層が、フラット化されたフレーム埋め込みに対して即座に適応可能であることを発見した。この特性により、ゼロショット動画分類およびゼロショットテキストから動画への検索において、最先端の性能を達成した。さらに、VideoCoCaの上位に軽量なファインチューニングを適用することで、動画質問応答および動画キャプションタスクにおいても優れた結果を得た。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています