8ヶ月前

マルチモーダル

マルチモーダル表現

ビデオ理解

マルチモーダル

コンピュータビジョン

Kranti Kumar Parida Neeraj Matiyali Tanaya Guha Gaurav Sharma

概要

本稿では、ビデオの分類と検索におけるゼロショット学習（ZSL）タスクに向けた音声-視覚多モーダルアプローチを提案します。ZSLは最近の研究で広く取り上げられてきましたが、主に視覚モーダルに限定され、画像に対して研究が行われてきました。本稿では、ビデオのZSLにおいて音声と視覚の両方のモーダルが重要であることを示します。現在、このタスクを研究するためのデータセットが存在しないため、既存の大規模な音響イベントデータセットから33クラスを含む156,416件のビデオを使用して適切な多モーダルデータセットを作成しました。実験結果から、埋め込み学習手法の多モーダル拡張版を使用した場合、音声モーダルを追加することでゼロショット分類と検索の両方のタスクにおける性能が向上することを示しています。さらに、モダリティ間注意ネットワークを共同で学習して「支配的」モーダルを予測する新しい方法も提案します。この注意は半教師あり設定で学習されるため、各モーダルに対する追加的な明示的なラベリングは必要ありません。また、モーダル特異的な注意について定性的な検証を行い、未知のテストクラスにも成功裏に一般化できることを確認しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

ビデオ理解

マルチモーダル

コンピュータビジョン

Kranti Kumar Parida Neeraj Matiyali Tanaya Guha Gaurav Sharma

概要

本稿では、ビデオの分類と検索におけるゼロショット学習（ZSL）タスクに向けた音声-視覚多モーダルアプローチを提案します。ZSLは最近の研究で広く取り上げられてきましたが、主に視覚モーダルに限定され、画像に対して研究が行われてきました。本稿では、ビデオのZSLにおいて音声と視覚の両方のモーダルが重要であることを示します。現在、このタスクを研究するためのデータセットが存在しないため、既存の大規模な音響イベントデータセットから33クラスを含む156,416件のビデオを使用して適切な多モーダルデータセットを作成しました。実験結果から、埋め込み学習手法の多モーダル拡張版を使用した場合、音声モーダルを追加することでゼロショット分類と検索の両方のタスクにおける性能が向上することを示しています。さらに、モダリティ間注意ネットワークを共同で学習して「支配的」モーダルを予測する新しい方法も提案します。この注意は半教師あり設定で学習されるため、各モーダルに対する追加的な明示的なラベリングは必要ありません。また、モーダル特異的な注意について定性的な検証を行い、未知のテストクラスにも成功裏に一般化できることを確認しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています