2ヶ月前
音声視覚のゼロショット分類とビデオ検索のための統合されたマルチモーダル埋め込み
Parida, Kranti Kumar ; Matiyali, Neeraj ; Guha, Tanaya ; Sharma, Gaurav

要約
本稿では、ビデオの分類と検索におけるゼロショット学習(ZSL)タスクに向けた音声-視覚多モーダルアプローチを提案します。ZSLは最近の研究で広く取り上げられてきましたが、主に視覚モーダルに限定され、画像に対して研究が行われてきました。本稿では、ビデオのZSLにおいて音声と視覚の両方のモーダルが重要であることを示します。現在、このタスクを研究するためのデータセットが存在しないため、既存の大規模な音響イベントデータセットから33クラスを含む156,416件のビデオを使用して適切な多モーダルデータセットを作成しました。実験結果から、埋め込み学習手法の多モーダル拡張版を使用した場合、音声モーダルを追加することでゼロショット分類と検索の両方のタスクにおける性能が向上することを示しています。さらに、モダリティ間注意ネットワークを共同で学習して「支配的」モーダルを予測する新しい方法も提案します。この注意は半教師あり設定で学習されるため、各モーダルに対する追加的な明示的なラベリングは必要ありません。また、モーダル特異的な注意について定性的な検証を行い、未知のテストクラスにも成功裏に一般化できることを確認しています。