참조 음성-시각 세그멘테이션에서 오민모달 표현과 추론으로

최근 들어 음성-시각 참조 분할(Referring Audio-Visual Segmentation, RAVS) 분야는 큰 발전을 이뤘으나, 다모달 정보의 통합 및 음성-시각 콘텐츠에 대한 심층적 이해와 추론 문제는 여전히 해결해야 할 과제로 남아 있다. RAVS의 경계를 확장하고 이 분야의 향후 연구를 촉진하기 위해, 본 연구에서는 2,098개의 영상과 59,458개의 다모달 참조 표현을 포함하는 새로운 데이터셋인 ‘오미모달 참조 음성-시각 분할(Omnimodal Referring Audio-Visual Segmentation, OmniAVS)’을 제안한다. OmniAVS는 세 가지 핵심 혁신을 통해 기존 연구와 차별화된다. 첫째, 텍스트, 음성, 소리 및 시각적 단서를 유연하게 조합할 수 있는 8종류의 다모달 표현을 제공한다. 둘째, 단순한 존재 감지 이상의 수준에서 음성 콘텐츠를 이해하는 데 중점을 둔다. 셋째, 복잡한 추론과 세계 지식을 포함하는 참조 표현을 도입함으로써 더 높은 수준의 인지적 이해를 유도한다. 또한, OmniAVS에서 다모달 추론과 음성-시각 콘텐츠에 대한 미세한 이해를 해결하기 위해 ‘오미모달 지시 분할 보조자(Omnimodal Instructed Segmentation Assistant, OISA)’를 제안한다. OISA는 다모달 언어 모델(Multimodal Large Language Model, MLLM)을 활용하여 복잡한 다모달 단서를 이해하고, 추론 기반의 분할을 수행한다. 광범위한 실험 결과에 따르면, OISA는 OmniAVS에서 기존 방법들을 상회하며, 다른 관련 작업들에서도 경쟁력 있는 성능을 달성하였다.