BT-Adapter: 비디오 대화는 비디오 지시 조정 없이도 가능하다

최근 대형 언어 모델(Large Language Models, LLM)의 발전은 이미지-언어 대화 에이전트 분야에서 다양한 진보를 이끌었지만, 효과적인 비디오 기반 대화 시스템을 구축하는 방법에 대해서는 아직 연구가 진행 중입니다. LLM과 시각적 백본의 큰 규모를 고려할 때, 시간적 모델링을 효과적으로 수행하기 위한 최소한의 GPU 메모리만이 남아 있어, 이는 비디오를 이해하고 피드백을 제공하는 데 중요한 역할을 합니다. 이를 해결하기 위해, 우리는 Branching Temporal Adapter(BT-Adapter)라는 새로운 방법을 제안합니다. BT-Adapter는 사전 학습된 시각 인코더와 함께 사용 가능한 시간적 모델링 분기를 제공하며, 백본은 동결된 상태로 조정됩니다. 단 한 번 사전 학습되면, BT-Adapter는 이 버전의 CLIP을 사용하는 모든 이미지 대화 모델에 원활하게 통합될 수 있어, 비디오 지시문 없이도 비디오 대화가 가능해집니다. 또한, 우리는 BT-Adapter를 위한 맞춤형 훈련 과제와 함께 고유한 비대칭 토큰 마스킹 전략을 개발하여 더 빠른 수렴과 더 나은 결과를 도출하였습니다.BT-Adapter 덕분에, 기존 다중 모달 대화 모델들은 과도한 GPU 비용 없이 강력한 비디오 이해 능력을 갖출 수 있게 되었습니다. 별다른 추가 장치 없이도 BT-Adapter는 다음과 같은 성과를 달성하였습니다: (1) 수천 시간 적게 GPU를 사용하여 다양한 비디오 작업에서 최고의 제로샷 결과를 얻었습니다. (2) 어떤 비디오 지시문 조정도 없이 현재의 비디오 챗봇보다 더 우수한 성능을 보였습니다. (3) 비디오 지시문 조정을 통해 이전 최고 기록(SOTA)보다 크게 앞선 최고의 비디오 챗팅 결과를 달성하였습니다.