2ヶ月前
時間的およびクロスモーダルな注意を用いた音声視覚ゼロショット学習
Mercea, Otniel-Bogdan ; Hummel, Thomas ; Koepke, A. Sophia ; Akata, Zeynep

要約
音声視覚一般化ゼロショット学習(Generalised Zero-Shot Learning: GZSL)は、映像分類において、音声情報と視覚情報の関係を理解し、テスト時に初めて遭遇する未知のクラスのサンプルを認識できるようにする必要があります。映像データにおける音声データと視覚データの自然な意味的および時間的な対応関係を利用することで、テスト時に未知のクラスにも一般化可能な強力な表現を学習することが可能となります。本研究では、多様性と時間的クロスアテンションフレームワーク(\modelName)を提案します。このフレームワークの入力は、事前学習済みネットワークから得られる時間的に整合性のある音声特徴量と視覚特徴量です。モダリティ内の自己注意ではなく、時間軸上で異なるモダリティ間の対応関係に焦点を当てるようフレームワークを促すことで、性能が大幅に向上します。我々は提案したフレームワークが時間的な特徴量を取り扱うことで、\ucf, \vgg, および\activityベンチマークにおける(一般化された)ゼロショット学習で最先端の性能を達成することを示しています。すべての結果を再現するためのコードは、\url{https://github.com/ExplainableML/TCAF-GZSL} で公開されています。注:\modelName, \ucf, \vgg, \activity は原文のマクロとして扱われています。実際にはこれらのマクロが展開される具体的な名称や表記を使用してください。例えば、「TCAF-GZSL」、「UCF101」、「VGGSound」、「ActivityNet」などです。