
초록
액션 탐지는 특히 잘라내지 않은 영상의 밀도 높은 라벨링 데이터셋에서 필수적이면서도 도전적인 과제이다. 이러한 데이터셋에는 복합 액션, 동시 발생 액션, 그리고 인스턴스 지속 시간의 높은 시간적 변동성과 같은 다양한 실제 세계의 과제들이 존재한다. 이러한 과제들을 해결하기 위해, 본 연구에서는 탐지된 액션들의 클래스 관계와 시간 관계를 동시에 탐색하는 접근법을 제안한다. 본 연구에서는 엔드 투 엔드 네트워크인 클래스-시간 관계 네트워크(Class-Temporal Relational Network, CTRN)를 도입한다. 이 네트워크는 세 가지 핵심 구성 요소로 이루어져 있다. (1) 표현 변환 모듈(Representation Transform Module)은 혼합된 표현에서 클래스별 특징을 추출하여 그래프 구조 데이터를 구성한다. (2) 클래스-시간 모듈(Class-Temporal Module)은 순차적인 방식으로 클래스 간 및 시간 간 관계를 모델링한다. (3) G-분류기(G-classifier)는 슬라이스 단위의 동시 발생 액션 쌍에 대한 사전 지식을 활용하여 동시 발생 액션 탐지 성능을 더욱 향상시킨다. 제안한 CTRN은 세 가지 도전적인 밀도 높은 라벨링 데이터셋에서 평가되었으며, 최신 기술 수준(SOTA)의 성능을 달성함으로써 본 방법의 효과성과 강건성을 입증하였다.