8ヶ月前

概要

本論文では、訓練中に見られなかった新しいクラスの音声/映像データがテスト時に存在するマルチモーダル設定における汎用ゼロショット学習のための新規アプローチを提案します。我々は、テキスト埋め込みの意味的関連性を用いて、音声と映像の埋め込みを対応するクラスラベルのテキスト特徴空間に合わせることでゼロショット学習を実現します。このアプローチではクロスモーダルデコーダと複合トリプレット損失を使用します。クロスモーダルデコーダは、データポイントの音声と映像の埋め込みからクラスラベルのテキスト特徴を再構築できるという制約を課します。これにより、音声と映像の埋め込みがクラスラベルのテキスト埋め込みに近づくことが促されます。複合トリプレット損失は、音声、映像、およびテキストの埋め込みを利用し、同じクラスからの埋め込みを近づけ、異なるクラスからの埋め込みを遠ざけることを助けます。これによりネットワークはマルチモーダル設定でのゼロショット学習タスクにおいてより良い性能を発揮できます。特に重要な点として、テスト時に特定のモーダルが欠落していても当該アプローチは機能することです。我々はこのアプローチを汎用ゼロショット分類タスクと検索タスクに適用し、単一モーダルだけでなく複数モーダルが存在する場合にも他のモデルよりも優れた性能を示すことを確認しました。さらに我々は、当該アプローチが以前の手法と比較して有効であることを様々な削減実験を通じて検証しています。

ソースPDF