Discordで議論

9ヶ月前

マルチモーダル

マルチモーダル表現

Video Captioning

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

概要

異なるモダリティ（例：動画、言語）にわたって不変な共同表現（joint representation）を構築することは、多数のマルチメディア応用において極めて重要である。近年、画像とテキストの共同表現を学習することで効果的な画像-テキスト検索手法が多数開発されている一方で、動画-テキスト検索タスクについては、その潜在能力が十分に掘り下げられていないのが現状である。本論文では、クロスモダルな動画-テキスト検索タスクにおいて、利用可能な動画からのマルチモーダルな手がかりを効果的に活用する方法を検討する。我々の分析に基づき、視覚的特徴（異なる視覚的特性）、音声入力、テキストといった複数のモダリティ特徴を統合する融合戦略を採用した、効率的な検索を実現する新しいフレームワークを提案する。さらに、共同埋め込みの学習に向けた複数の損失関数を検討し、検索タスクに適した修正されたペアワイズランキング損失を提案する。MSVDおよびMSR-VTTデータセットにおける実験結果から、本手法が最先端のアプローチと比較して顕著な性能向上を達成していることが示された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Discordで議論

9ヶ月前

マルチモーダル

マルチモーダル表現

Video Captioning

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

概要

異なるモダリティ（例：動画、言語）にわたって不変な共同表現（joint representation）を構築することは、多数のマルチメディア応用において極めて重要である。近年、画像とテキストの共同表現を学習することで効果的な画像-テキスト検索手法が多数開発されている一方で、動画-テキスト検索タスクについては、その潜在能力が十分に掘り下げられていないのが現状である。本論文では、クロスモダルな動画-テキスト検索タスクにおいて、利用可能な動画からのマルチモーダルな手がかりを効果的に活用する方法を検討する。我々の分析に基づき、視覚的特徴（異なる視覚的特性）、音声入力、テキストといった複数のモダリティ特徴を統合する融合戦略を採用した、効率的な検索を実現する新しいフレームワークを提案する。さらに、共同埋め込みの学習に向けた複数の損失関数を検討し、検索タスクに適した修正されたペアワイズランキング損失を提案する。MSVDおよびMSR-VTTデータセットにおける実験結果から、本手法が最先端のアプローチと比較して顕著な性能向上を達成していることが示された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

マルチモーダルな手がかりを用いた連合埋め込み学習によるクロスモーダルな動画-テキスト検索 | 記事 | HyperAI超神経