2ヶ月前
大規模言語モデルを用いた音声視覚的なゼロショット学習の向上
Chen, Haoxing ; Li, Yaohui ; Hong, Yan ; Huang, Zizheng ; Xu, Zhuoer ; Gu, Zhangxuan ; Lan, Jun ; Zhu, Huijia ; Wang, Weiqiang

要約
音声視覚ゼロショット学習は、ペアになった音声と視覚のシーケンスに基づいて未見のクラスを認識することを目指しています。最近の手法は主に、クラス名と対応する多様な特徴を学習することで、未見のカテゴリに対する汎化能力を向上させることに焦点を当てています。しかし、これらのアプローチはクラス名に含まれる曖昧なイベント概念を見落としており、やむを得ず複雑なネットワーク構造と困難な学習目標が導入される可能性があります。本論文では、外部知識ベースを活用してモデルが新しいイベント内容をより効果的に学習できるようにする単純かつ効率的なフレームワークである「Knowledge-Augmented audio-visual learning(KDA)」を提案します。具体的には、大規模言語モデル(LLMs)に含まれる知識を利用して、イベントクラスの重要な区別音声視覚特徴を含む多くの説明文を生成することを提唱します。これにより、未見のカテゴリに対する理解が深まります。さらに、類似したイベントを区別するために知識に基づく適応的マージン損失(knowledge-aware adaptive margin loss)を提案し、未見のクラスに対する汎化能力をさらに向上させます。広範囲にわたる実験結果から、提案したKDAが3つの人気のある音声視覚ゼロショット学習データセットで最先端の手法を超えることが示されています。当該コードは \url{https://github.com/chenhaoxing/KDA} で公開予定です。