브리지-프롬프트: 지시 영상에서 순서형 동작 이해를 향해

행동 인식 모델은 짧은 영상 클립에서 인간의 행동을 분류하는 데 있어 매력적인 능력을 보여주고 있다. 실제 시나리오에서는 특정 순서로 여러 관련된 인간 행동들이 자주 발생하며, 이는 의미 있는 인간 활동으로 구성된다. 기존의 행동 인식 접근 방식은 단일 행동 분석에 집중하지만, 인접한 행동 간의 맥락적 관계를 충분히 이해하지 못한다. 이러한 맥락적 관계는 긴 영상의 이해를 위한 잠재적인 시간적 논리적 구조를 제공한다. 본 논문에서는 인접 행동 간의 의미를 모델링하기 위해 프롬프트 기반의 프레임워크인 Bridge-Prompt(Br-Prompt)을 제안한다. 이 프레임워크는 지침 영상 내 일련의 순서화된 행동들에서 비맥락적 정보와 맥락적 정보를 동시에 활용할 수 있도록 한다. 구체적으로, 개별 행동 레이블을 통합된 텍스트 프롬프트로 재정의하여 개별 행동의 의미 간 격차를 메운다. 생성된 텍스트 프롬프트는 해당 영상 클립과 쌍을 이루며, 대조적 학습 방식을 통해 텍스트 인코더와 비디오 인코더를 함께 학습시킨다. 학습된 비전 인코더는 순서화된 행동과 관련된 하류 작업, 예를 들어 행동 세그멘테이션 및 인간 활동 인식 등에서 더 강력한 성능을 발휘한다. 제안한 방법의 성능은 Georgia Tech Egocentric Activities(GTEA), 50Salads, Breakfast 데이터셋 등 여러 영상 데이터셋에서 평가되었으며, 다양한 벤치마크에서 최신 기준(SOTA) 성능을 달성하였다. 코드는 https://github.com/ttlmh/Bridge-Prompt 에 공개되어 있다.