
스포츠 방송의 자동화된 제작을 목표로 할 때, 게임의 고차원적 의미 정보를 이해하는 것이 가장 중요한 과제 중 하나입니다. 예를 들어, 게임의 주요 행동을 인식하고 위치 파악하면 제작자가 게임의 중요한 세부 사항에 집중하면서 관객 참여도를 극대화할 수 있는 자동화된 방송 제작을 적응시키는 데 도움이 됩니다. 본 논문에서는 축구 방송에서 행동 위치 파악에 초점을 맞추어 분석합니다. 이는 축구 경기에서 주요 행동들을 시간적으로 위치 파악하는 것을 의미합니다. 이를 위해, 시간적 인식 지식을 포함하는 새로운 특성 풀링 방법인 NetVLAD++를 제안합니다. 기존의 풀링 방법들이 행동 발생 전후의 시간적 맥락을 단일 집합으로 취급하여 풀링하는 것과 달리, 우리는 행동 발생 전후로 맥락을 나눕니다. 우리는 행동 위치 주변의 맥락 정보를 단일 엔티티로 간주하면 풀링 모듈에 대한 학습이 최적화되지 않는다고 주장합니다. NetVLAD++를 사용하면 과거와 미래 프레임에서 맥락을 분리하고 각 하위 집합에 대해 특정 의미론적 어휘집을 학습할 수 있어 이러한 어휘집이 시간적으로 혼합되고 모호해지는 것을 피할 수 있습니다. 이러한 사전 지식을 주입함으로써 더 유익한 풀링 모듈과 더 구분력 있는 풀링된 특성을 생성하여 행동에 대한 더 나은 이해를 이끌어냅니다. 우리는 최근 대규모 데이터셋인 SoccerNet-v2에서 우리의 방법론을 학습하고 평가하였으며, 53.4%의 평균 mAP(average-mAP)를 달성하였습니다. 이는 현재 최신 기술(state-of-the-art) 대비 +12.7% 개선된 결과입니다.