2달 전

시각적 언어와 언어가 만나는 곳: 효율적이고 맥락 인식 시각적 언어 처리를 위한 VSP-LLM 프레임워크

Yeo, Jeong Hun ; Han, Seunghee ; Kim, Minsu ; Ro, Yong Man
시각적 언어와 언어가 만나는 곳: 효율적이고 맥락 인식 시각적 언어 처리를 위한 VSP-LLM 프레임워크
초록

시각적 음성 처리에서 문맥 모델링 능력은 입술 움직임의 모호한 특성 때문에 가장 중요한 요구 사항 중 하나입니다. 예를 들어, 동음이의어(homophenes)는 동일한 입술 움직임을 공유하지만 다른 소리를 내는 단어로, 문맥을 고려함으로써 구분할 수 있습니다. 본 논문에서는 문맥 모델링 능력을 극대화하기 위해 대형 언어 모델(LLMs)의 압도적인 성능을 활용하는 새로운 프레임워크인 시각적 음성 처리와 LLM 통합(VSP-LLM)을 제안합니다. 특히, VSP-LLM은 주어진 지시에 따라 시각적 음성 인식과 번역의 다중 작업을 수행하도록 설계되었습니다. 자가 감독된 시각적 음성 모델을 사용하여 입력 비디오를 LLM의 입력 잠재 공간에 매핑합니다. 입력 프레임에 중복 정보가 있다는 점에 주목하여, 우리는 시각적 음성 유닛(visual speech units)을 활용하여 임베딩된 시각 특성을 줄이는 새로운 중복 제거 방법을 제안합니다. 제안된 중복 제거 방법과 저순위 적응(Low Rank Adaptation, LoRA)을 통해 VSP-LLM은 계산적으로 효율적인 방식으로 학습될 수 있습니다. 번역 데이터셋인 MuAViC 벤치마크에서, VSP-LLM이 단 30시간의 라벨링된 데이터로 학습되었음에도 불구하고 최근 433시간의 데이터로 학습된 모델보다 입술 움직임을 더 효과적으로 번역할 수 있음을 보여줍니다.