2ヶ月前
双曲音視覚ゼロショット学習
Hong, Jie ; Hayder, Zeeshan ; Han, Junlin ; Fang, Pengfei ; Harandi, Mehrtash ; Petersson, Lars

要約
音声視覚ゼロショット学習は、訓練中に存在しないクラスから対応する音声と映像のシーケンスのペアで構成されるサンプルを分類することを目指しています。音声視覚データの分析により、これらのデータに大きな双曲性が見られることが明らかとなり、このタスクのためにより複雑な階層的なデータ構造を探索するために、双曲変換を使用して曲率に配慮した幾何学的学習を行う潜在的な利点が示唆されています。提案された手法では、双曲空間における映像特徴量と音声特徴量のクロスモダリティアライメントを組み込んだ新しい損失関数が用いられます。さらに、複数の適応的な曲率を使用した双曲射影についても検討しました。非常に困難なこのタスクに対する実験結果は、提案された双曲ゼロショット学習手法がVGGSound-GZSL、UCF-GZSL、およびActivityNet-GZSLという3つのデータセットにおいて最先进手法を上回ることを示しており、それぞれ調和平均(HM)で約3.0%、7.0%、5.3%の改善が達成されました。