기대-최대화 다중 예제 학습을 이용한 약한 지도 하에 행동 위치 탐지

약한 지도 학습을 기반으로 한 행동 위치 추정은 비디오 수준의 행동 레이블만 제공되는 조건에서 모델이 비디오 내 행동 구간을 정확히 위치 추정하도록 학습하는 문제를 다룹니다. 이는 다중 예제 학습(Multiple Instance Learning, MIL) 프레임워크 하에서 해결될 수 있으며, 여기서 한 번의 '백(bag)'(비디오)은 여러 개의 '인스턴스(instance)'(행동 구간)를 포함합니다. 그러나 백의 레이블만 알려져 있어, 핵심 과제는 해당 백 내에서 어떤 핵심 인스턴스가 백의 레이블을 유도하는지 식별하는 것입니다. 기존의 대부분의 모델들은 주로 주의 기반(attention-based) 접근법을 사용하여 인스턴스들로부터 백의 표현을 생성하고, 이를 백의 분류를 통해 학습합니다. 그러나 이러한 모델들은 은유적으로 음성 백(negative bag) 내의 모든 인스턴스가 균일하게 부정적이어야 한다는 MIL 가정을 위반합니다. 본 연구에서는 핵심 인스턴스 할당을 숨겨진 변수(hidden variable)로 명시적으로 모델링하고, 기대-최대화(Expectation-Maximization, EM) 프레임워크를 도입합니다. 우리는 E 단계와 M 단계를 모델링하기 위한 두 가지 의사 레이블 생성 전략을 제안하며, 이들을 반복적으로 최적화함으로써 가능도 하한값(likelihood lower bound)을 극대화합니다. 제안하는 EM-MIL 방법은 학습 목표와 MIL 가정을 더 정확하게 모델링함을 보여주며, THUMOS14 및 ActivityNet1.2라는 두 가지 표준 벤치마크에서 최신 기술(SOTA) 성능을 달성합니다.