6ヶ月前

マルチモーダル

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

概要

本研究では、MSR-VTT、LSMDC、MSVD、YouCook2、TGIFの各データセットにおいて、単一モデルによって達成されたテキストから動画への検索タスクにおける新たな最先端性能を提示する。本手法では、弱教師付き動画データ、クラウドラベル付きのテキスト-画像ペア、およびテキスト-動画ペアという3種類の異なるデータソースを統合している。事前学習済みネットワークの可用性を詳細に分析することで、最適な事前知識を有するモデルを選定した。さらに、三段階の学習プロセスを導入することで、高い転移学習効率を実現しつつ、ノイズを含むデータセットを用いた学習においても、事前知識の劣化を防ぐことが可能となった。また、異なるモダリティ間の融合をより効果的に行うため、二重位置符号化（double positional encoding）を採用し、正方形でない入力に対する処理を簡便に実現する手法も提案している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

概要

本研究では、MSR-VTT、LSMDC、MSVD、YouCook2、TGIFの各データセットにおいて、単一モデルによって達成されたテキストから動画への検索タスクにおける新たな最先端性能を提示する。本手法では、弱教師付き動画データ、クラウドラベル付きのテキスト-画像ペア、およびテキスト-動画ペアという3種類の異なるデータソースを統合している。事前学習済みネットワークの可用性を詳細に分析することで、最適な事前知識を有するモデルを選定した。さらに、三段階の学習プロセスを導入することで、高い転移学習効率を実現しつつ、ノイズを含むデータセットを用いた学習においても、事前知識の劣化を防ぐことが可能となった。また、異なるモダリティ間の融合をより効果的に行うため、二重位置符号化（double positional encoding）を採用し、正方形でない入力に対する処理を簡便に実現する手法も提案している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています