2달 전
축구 영상에서 동작 인식을 위한 맥락 인식 손실 함수
Cioppa, Anthony ; Deliège, Adrien ; Giancola, Silvio ; Ghanem, Bernard ; Van Droogenbroeck, Marc ; Gade, Rikke ; Moeslund, Thomas B.

초록
비디오 이해에서 액션 스포팅은 단일 타임스탬프로 주석된 인간에 의해 유발된 이벤트를 시간적으로 위치시키는 것을 의미합니다. 본 논문에서는 각 액션 주변에 자연스럽게 존재하는 시간적 맥락을 고려하고, 단일 주석 프레임에만 초점을 맞추지 않는 새로운 손실 함수를 제안합니다. 우리는 이 손실 함수를 축구 비디오의 대규모 데이터셋인 SoccerNet에서 벤치마킹하여 기준 모델보다 12.8%의 성능 향상을 달성했습니다. 또한, ActivityNet에서 일반적인 활동 제안 및 검출을 통해 각 활동의 시작과 끝을 스포팅함으로써 우리 손실 함수의 일반화 능력을 보여줍니다. 더 나아가, 축구 비디오에서 액션 스포팅의 어려운 사례들을 확장된 아블레이션 연구를 통해 제공하며, 질적으로 우리의 손실 함수가 어떻게 정확한 시간적 이해를 유도하는지 설명합니다. 마지막으로, 이러한 의미론적 지식이 자동 하이라이트 생성에 어떻게 활용될 수 있는지를 보여줍니다.