MOMA-LRG: 다중 객체 다중 액터 활동 해석을 위한 언어 개선 그래프

비디오-언어 모델(VLMs)은 인터넷에서 수집한 수많지만 노이즈가 많은 비디오-텍스트 쌍을 사전 학습한 대규모 모델로, 놀라운 일반화 능력과 오픈-보이지(Open-vocabulary) 특성을 통해 활동 인식 분야에서 혁신을 이끌었다. 복잡한 인간 활동은 일반적으로 계층적이고 구성적인 구조를 지닌 반면, 기존의 VLM 평가 작업은 대부분 고수준의 비디오 이해에 국한되어 있어, VLM이 복잡하고 세부적인 인간 활동을 얼마나 정확히 이해하고 해석하는지 평가하기 어렵다는 한계가 있다. 최근 제안된 MOMA 프레임워크에 영감을 받아, 우리는 활동 그래프(activation graphs)를 인간 활동의 단일 통합 표현으로 정의하며, 활동, 하위 활동, 원자적 동작의 세 수준에서의 비디오 이해를 모두 포괄하는 구조로 제시한다. 또한 활동 분석(activation parsing)을 활동 그래프 생성이라는 종합적인 과제로 재정의하여, 세 수준의 인간 활동 이해 능력을 요구한다. 모델의 활동 분석 성능 평가를 촉진하기 위해, 복잡한 인간 활동을 포함하고 활동 그래프 주석이 제공된 대규모 데이터셋인 MOMA-LRG(Multi-Object Multi-Actor Language-Refined Graphs)를 도입한다. 이 데이터셋은 자연어 문장으로 쉽게 변환할 수 있는 구조를 지니고 있어 언어 기반 분석에 유리하다. 마지막으로, 언어 모델과 그래프 모델의 개별적 한계를 보완하기 위해, 활동 그래프에서 도출한 구조적 지식을 VLM에 통합함으로써 모델에 의존하지 않고 경량화된 방식으로 VLM의 적응 및 평가를 가능하게 하는 접근법을 제안한다. 본 연구는 소수의 예시( few-shot) 활동 분석에서 우수한 성능을 입증하였으며, 본 프레임워크는 향후 비디오, 그래프, 언어의 공동 모델링에 대한 연구를 촉진할 것을 목적으로 한다.