11일 전
포인트로부터 학습하는 액션 완전성: 약한 지도(Temporal Action Localization)를 위한 방법
Pilhyeon Lee, Hyeran Byun

초록
각 행동 인스턴스에 대해 단일 프레임 레이블만을 사용하여 행동의 시간적 간격을 정위치화하는 문제에 대해 다룹니다. 레이블의 희소성으로 인해 기존의 방법들은 행동의 완전성을 학습하지 못하여 부분적인 행동 예측을 초래합니다. 본 논문에서는 밀도 높은 가상 레이블을 생성함으로써 모델에게 행동의 완전성에 대한 안내를 제공하는 새로운 프레임워크를 제안합니다. 구체적으로, 먼저 점 수준의 행동 레이블을 보완하기 위해 가상의 배경 포인트를 선택합니다. 그 후, 이 포인트들을 시드로 삼아, 시드와 일치하면서 완전한 행동 인스턴스를 포함할 가능성이 높은 최적의 시퀀스를 탐색합니다. 얻어진 시퀀스로부터 완전성을 학습하기 위해, 행동 점수와 특징 유사성 측면에서 행동 인스턴스와 배경을 대조하는 두 가지 새로운 손실 함수를 도입합니다. 실험 결과, 본 연구에서 제안하는 완전성 안내 기법이 모델이 완전한 행동 인스턴스를 정확히 정위치화하는 데 실제로 도움이 되며, 특히 높은 IoU 임계값 하에서 큰 성능 향상을 가져옴을 입증하였습니다. 또한, THUMOS'14, GTEA, BEOID, ActivityNet의 네 가지 벤치마크에서 기존 최고 수준의 방법들에 비해 본 방법의 우수성을 입증하였습니다. 특히 주목할 점은, 본 방법은 최근의 완전히 감독되는 방법들과 비교해도 유사한 성능을 보이며, 레이블링 비용은 단 1/6 수준으로 저렴하다는 점입니다. 코드는 https://github.com/Pilhyeon 에 공개되어 있습니다.