17일 전

CREMA: 다중모달 모듈러 통합을 통한 일반화 가능하고 효율적인 비디오-언어 추론

Shoubin Yu, Jaehong Yoon, Mohit Bansal
CREMA: 다중모달 모듈러 통합을 통한 일반화 가능하고 효율적인 비디오-언어 추론
초록

최근 다중모달 추론 기법에서 놀라운 발전이 이루어졌음에도 불구하고, 이러한 모델들은 일반적으로 고정된 몇 가지 모달리티 입력만 처리할 수 있고, 수많은 파라미터를 업데이트해야 하는 등의 한계로 인해 유연성과 효율성 측면에서 여전히 제약을 받고 있다. 본 논문은 이러한 핵심적 도전 과제를 해결하고, 새로운 모달리티를 쉽게 통합하여 영상 추론 성능을 향상시킬 수 있는 일반화 가능하고, 매우 효율적이며 모듈러한 모달리티 융합 프레임워크인 CREMA를 제안한다. 먼저, 추가적인 인간 레이블링 없이 센서나 기존의 사전 학습된 모델을 활용하여 주어진 영상으로부터 다양한 정보성 모달리티(예: 광학 흐름, 3D 포인트 클라우드, 오디오, 열화상 맵, 터치 맵 등)를 증강한다. 다음으로, 각각의 접근 가능한 모달리티와 연결된 다수의 파라미터 효율적인 모듈을 갖춘 쿼리 트랜스포머를 도입한다. 이는 다양한 모달리티 특징을 LLM 토큰 임베딩 공간으로 매핑함으로써, 모델이 다양한 데이터 유형을 통합하여 응답을 생성할 수 있도록 한다. 더불어, 경량 융합 모듈과 모달리티 순차 학습 전략을 기반으로 한 새로운 점진적 다중모달 융합 설계를 제안한다. 이는 보조 모달리티 간의 정보를 압축하면서도 LLM의 계산 효율성을 유지하면서 성능을 향상시킨다. 제안한 방법은 다양한 모달리티를 활용한 7개의 영상-언어 추론 작업(기존의 VideoQA 및 Video-Audio/3D/Touch/Thermal QA 등)에서 검증되었으며, OneLLM, BLIP-2, SeViLA와 같은 강력한 다중모달 LLM들과 비교해 더 나은 또는 동등한 성능을 달성하면서도 학습 가능한 파라미터 수를 90% 이상 감소시켰다. 또한 CREMA에 대한 광범위한 분석을 제공하며, 각 모달리티가 추론 도메인에 미치는 영향, 융합 모듈 설계, 예시 시각화 등을 포함한다.

CREMA: 다중모달 모듈러 통합을 통한 일반화 가능하고 효율적인 비디오-언어 추론 | 최신 연구 논문 | HyperAI초신경