11일 전

비약한 감독 하에 의한 비디오 내 행동 선택 학습

Junwei Ma, Satya Krishna Gorti, Maksims Volkovs, Guangwei Yu
비약한 감독 하에 의한 비디오 내 행동 선택 학습
초록

비디오 내 행동의 위치를 파악하는 것은 컴퓨터 비전 분야의 핵심 과제이다. 약한 감독(Temporal Localization)을 이용한 시간적 위치 파악 문제는 비디오 수준의 레이블만으로도 이 과제를 충분히 해결할 수 있는지 여부를 탐구하며, 비용이 많이 들고 오류가 발생하기 쉬운 프레임 수준의 레이블 작업을 크게 줄일 수 있다. 일반적인 접근 방식은 프레임 수준의 분류기를 학습하는 것으로, 분류기가 가장 높은 클래스 확률을 보이는 프레임을 선택하여 비디오 수준의 예측을 수행한다. 이후 이 프레임 수준의 활성화 값(activation)을 활용해 행동의 위치를 추정한다. 그러나 프레임 수준의 레이블이 없기 때문에 분류기는 모든 프레임에 대해 클래스 편향(class bias)을 유발하게 된다. 이를 해결하기 위해 우리는 행동의 일반적인 개념을 포착할 수 있는 '행동성(Actionness)'이라는 특성에 주목한 Action Selection Learning(ASL) 방법을 제안한다. ASL에서는 분류기가 어떤 프레임을 선택할지를 예측하는 새로운 클래스 무관(class-agnostic) 학습 과제를 통해 모델을 훈련시킨다. 실험적으로 우리는 ASL이 두 가지 대표적인 벤치마크인 THUMOS-14와 ActivityNet-1.2에서 최신 기준 모델들을 상회하며, 각각 10.3%, 5.7%의 상대적 성능 향상을 보였음을 입증하였다. 또한 ASL의 특성을 분석하고, '행동성'의 중요성을 실험적으로 입증하였다. 본 연구의 전체 코드는 다음 링크에서 확인할 수 있다: https://github.com/layer6ai-labs/ASL.

비약한 감독 하에 의한 비디오 내 행동 선택 학습 | 최신 연구 논문 | HyperAI초신경