대형 언어 모델을 활용한 오디오-비주얼 제로샷 학습 강화

오디오-비주얼 제로샷 학습은 짝을 이룬 오디오-비주얼 시퀀스를 기반으로 보지 못한 클래스를 인식하는 것을 목표로 합니다. 최근의 방법들은 주로 클래스 이름과 일치하는 다중 모달 특성을 학습하여 보지 못한 범주에 대한 일반화 능력을 향상시키는 데 초점을 맞추고 있습니다. 그러나 이러한 접근 방식은 클래스 이름에 포함된 미묘한 사건 개념을 무시하고, 복잡한 네트워크 구조와 어려운 학습 목표를 불가피하게 도입할 수 있습니다. 본 논문에서는 외부 지식 기반을 활용하여 새로운 사건 내용을 더 효과적으로 학습할 수 있도록 돕는 간단하면서도 효율적인 프레임워크인 지식 강화형 오디오-비주얼 학습(KDA, Knowledge-Augmented audio-visual learning)을 소개합니다. 특히, 우리는 대규모 언어 모델(LLMs, Large Language Models)이 포함하는 지식을 활용하여 사건 클래스의 중요한 구분 오디오-비주얼 특성을 포함하는 많은 설명 문장을 생성하는 방법을 제안합니다. 이는 보지 못한 범주를 더 잘 이해하는 데 도움이 됩니다. 또한, 유사한 사건들을 구별하기 위한 지식 인지적 적응 마진 손실(knowledge-aware adaptive margin loss)을 제안하여, 보지 못한 클래스에 대한 일반화 능력을 더욱 개선하였습니다. 광범위한 실험 결과가 증명하듯이, 제안된 KDA는 세 가지 인기 있는 오디오-비주얼 제로샷 학습 데이터셋에서 최신 방법들을 능가할 수 있음을 확인하였습니다. 우리의 코드는 \url{https://github.com/chenhaoxing/KDA}에서 제공될 예정입니다.