
초록
시간적 행동 로컬라이제이션은 영상 이해에 있어 중요한 단계입니다. 현재 대부분의 행동 로컬라이제이션 방법은 행동 인스턴스의 전체 시간적 레이블이 포함된 트림되지 않은 영상(untimed video)에 의존하고 있습니다. 그러나 영상의 행동 레이블과 시간 경계를 모두 레이블링하는 것은 비용이 많이 들고 시간이 오래 걸리는 작업입니다. 이를 해결하기 위해, 학습 시 영상 수준의 행동 인스턴스만을 supervision으로 요구하는 약한 지도(Temporal Action Localization) 방법을 제안합니다. 본 연구에서는 영상 내 각 세그먼트에 대해 행동 레이블을 생성하는 분류 모듈과, 서로 다른 행동 인스턴스 간의 유사도를 학습하는 딥 메트릭 학습 모듈을 제안합니다. 표준 역전파 알고리즘을 사용하여 균형 잡힌 이진 크로스 엔트로피 손실과 메트릭 손실을 공동 최적화합니다. 광범위한 실험을 통해 이러한 두 구성 요소가 시간적 로컬라이제이션에 있어 효과적임을 입증하였습니다. 제안한 알고리즘은 두 가지 도전적인 트림되지 않은 영상 데이터셋인 THUMOS14와 ActivityNet1.2에서 평가되었으며, IoU 임계값 0.5에서 THUMOS14에서 기존 최고 성능 대비 6.5%의 mAP 향상을 달성하였고, ActivityNet1.2에서도 경쟁력 있는 성능을 보였습니다.