HyperAIHyperAI

Command Palette

Search for a command to run...

AVGZSLNet: 音声視覚一般化ゼロショットラーニングにおけるマルチモーダル埋め込みからのラベル特徴再構成

Pratik Mazumder Pravendra Singh Kranti Kumar Parida Vinay P. Namboodiri

概要

本論文では、訓練中に見られなかった新しいクラスの音声/映像データがテスト時に存在するマルチモーダル設定における汎用ゼロショット学習のための新規アプローチを提案します。我々は、テキスト埋め込みの意味的関連性を用いて、音声と映像の埋め込みを対応するクラスラベルのテキスト特徴空間に合わせることでゼロショット学習を実現します。このアプローチではクロスモーダルデコーダと複合トリプレット損失を使用します。クロスモーダルデコーダは、データポイントの音声と映像の埋め込みからクラスラベルのテキスト特徴を再構築できるという制約を課します。これにより、音声と映像の埋め込みがクラスラベルのテキスト埋め込みに近づくことが促されます。複合トリプレット損失は、音声、映像、およびテキストの埋め込みを利用し、同じクラスからの埋め込みを近づけ、異なるクラスからの埋め込みを遠ざけることを助けます。これによりネットワークはマルチモーダル設定でのゼロショット学習タスクにおいてより良い性能を発揮できます。特に重要な点として、テスト時に特定のモーダルが欠落していても当該アプローチは機能することです。我々はこのアプローチを汎用ゼロショット分類タスクと検索タスクに適用し、単一モーダルだけでなく複数モーダルが存在する場合にも他のモデルよりも優れた性能を示すことを確認しました。さらに我々は、当該アプローチが以前の手法と比較して有効であることを様々な削減実験を通じて検証しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています