
초록
최근 몇 년 동안, 비정형 영상(unttrimmed videos) 내에서 활동을 시간적으로 국소화하는 문제는 광범위하게 연구되어 왔다. 최근의 기술 발전에도 불구하고, 약한 지도(temporal activity localization)를 사용하는 기존 방법들은 활동이 발생하지 않는 경우를 인식하는 데 어려움을 겪고 있다. 이 문제를 해결하기 위해 본 연구에서는 A2CL-PT라는 새로운 방법을 제안한다. 제안된 방법은 특징 공간 내에서 두 개의 트리플릿(triplet)을 고려한다. 하나의 트리플릿은 각 활동 클래스에 대한 구분 가능한 특징을 학습하는 데 사용되며, 다른 하나는 각 영상에서 활동이 발생하지 않는 경우(즉, 배경 특징)의 특징을 활동 관련 특징과 구분하는 데 사용된다. 성능을 추가로 향상시키기 위해, 두 개의 병렬 브랜치를 활용한 네트워크 구조를 설계하였으며, 이 브랜치들은 서로 대립적인 방식으로 작동한다. 첫 번째 브랜치는 영상 내에서 가장 두드러진 활동을 국소화하고, 두 번째 브랜치는 국소화되지 않은 영역에서 다른 보완적인 활동을 탐지한다. THUMOS14 및 ActivityNet 데이터셋에서 수행된 광범위한 실험 결과, 제안된 방법이 효과적임을 입증하였다. 특히 THUMOS14 데이터셋에서 IoU 임계값 0.1에서 0.9까지의 평균 mAP가 기존의 27.9%에서 30.0%로 유의미하게 향상되었다.