2달 전

CAT: 다이나믹 오디오-비주얼 시나리오에서 질문에 답하기 위한 멀티모달 대형 언어 모델의 성능 향상

Qilang Ye; Zitong Yu; Rui Shao; Xinyu Xie; Philip Torr; Xiaochun Cao
CAT: 다이나믹 오디오-비주얼 시나리오에서 질문에 답하기 위한 멀티모달 대형 언어 모델의 성능 향상
초록

본 논문은 풍부하고 복잡한 동적 오디오-비주얼 구성 요소로 이루어진 시나리오에서 질문에 답하는 문제에 초점을 맞추고 있습니다. 기존의 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 오디오-비주얼 콘텐츠에 응답할 수 있지만, 때때로 이러한 응답이 모호하여 특정 오디오-비주얼 이벤트를 정확히 설명하지 못하는 경우가 있습니다. 이러한 제한을 극복하기 위해, 우리는 세 가지 방법으로 MLLM을 강화한 CAT(Cross-Audio-Visual Aggregator and Trainer)을 소개합니다.1) 단순히 오디오와 비디오를 연결하는 것뿐만 아니라, 우리는 동적 오디오-비주얼 시나리오에서 질문과 관련된 단서들을 집계하는 단서 집계기(clue aggregator)를 설계하였습니다. 이를 통해 대형 언어 모델이 필요한 상세 지식을 더욱 풍부하게 할 수 있습니다.2) CAT는 혼합 다중모달 데이터셋에서 학습되며, 이는 오디오-비주얼 시나리오에 직접 적용할 수 있게 합니다. 특히, 우리는 오디오-비주얼 결합 지시 데이터셋인 AVinstruct를 수집하여 CAT의 교차 의미론적 상관관계 모델링 능력을 더욱 향상시키고자 하였습니다.3) 우리는 AI 지원 모호성 인식 직접 선호도 최적화(AI-assisted ambiguity-aware direct preference optimization)라는 전략을 제안합니다. 이 전략은 모델을 재학습하여 명확한 응답을 선호하도록 하고, 특정 오디오-비주얼 객체의 위치를 파악하는 능력을 개선하는데 특화되어 있습니다.다양한 실험 결과들은 CAT가 다중모달 작업, 특히 오디오-비주얼 질문 답변(Audio-Visual Question Answering, AVQA) 작업에서 기존 방법들을 능가함을 입증하였습니다. 코드와 수집된 지시사항은 https://github.com/rikeilong/Bay-CAT에서 제공됩니다.