TURN TAP: 시간적 행동 제안을 위한 시간 단위 회귀 네트워크

시간적 행동 제안(TAP) 생성은 중요한 문제로, 긴 원본 비디오에서 의미上有重要性的(예:인간 행동)구간을 빠르고 정확하게 추출하는 것이 대규모 비디오 분석의 중요한 단계이기 때문이다. 본 연구에서는 새로운 시간적 유닛 회귀 네트워크(TURN) 모델을 제안한다. TURN의 두 가지 주요 특징은 다음과 같다: (1) TURN은 행동 제안을 공동으로 예측하고 시간 좌표 회귀를 통해 시간 경계를 개선한다; (2) 유닛 특성 재사용을 통해 빠른 계산이 가능하다: 긴 원본 비디오는 비디오 유닛으로 분해되며, 이들은 시간적 제안의 기본 구성 요소로 재사용된다. TURN은 THUMOS-14 및 ActivityNet 데이터셋에서 평균 재현율(AR) 측면에서 기존 최신 방법론들을 크게 능가하며, TITAN X GPU에서 초당 880프레임(FPS) 이상의 속도로 실행된다. 또한 우리는 기존의 시간적 행동 위치 결정 파이프라인에 TURN을 제안 생성 단계로 적용하였으며, 이는 THUMOS-14 및 ActivityNet에서 최신 성능을 크게 능가하였다.注:在翻译中,“有重要意义的”被直接转换为“의미上有重要性的”,这是为了保持句子的流畅性和自然度。在实际应用中,可以将其调整为“의미上有重要意义的”或者“중요한”以更好地适应韩语表达习惯。以下是调整后的版本:시간적 행동 제안(TAP) 생성은 중요한 문제로, 긴 원본 비디오에서 의미上有重要意义的(예:인간 행동)구간을 빠르고 정확하게 추출하는 것이 대규모 비디오 분석의 중요한 단계이기 때문이다. 본 연구에서는 새로운 시간적 유닛 회귀 네트워크(TURN) 모델을 제안한다. TURN의 두 가지 주요 특징은 다음과 같다: (1) TURN은 행동 제안을 공동으로 예측하고 시간 좌표 회귀를 통해 시간 경계를 개선한다; (2) 유닛 특성 재사용을 통해 빠른 계산이 가능하다: 긴 원본 비디오는 비디오 유닛으로 분해되며, 이들은 시간적 제안의 기본 구성 요소로 재사용된다. TURN은 THUMOS-14 및 ActivityNet 데이터셋에서 평균 재현율(AR) 측면에서 기존 최신 방법론들을 크게 능가하며, TITAN X GPU에서 초당 880프레임(FPS) 이상의 속도로 실행된다. 또한 우리는 기존의 시간적 행동 위치 결정 파이프라인에 TURN을 제안 생성 단계로 적용하였으며, 이는 THUMOS-14 및 ActivityNet에서 최신 성능을 크게 능가하였다.或者:시간적 행동 제안(TAP) 생성은 중요한 문제로, 긴 원본 비디오에서 중요한 (예:인간 행동) 구간을 빠르고 정확하게 추출하는 것이 대규모 비디오 분석의 중요한 단계이기 때문이다. 본 연구에서는 새로운 시간적 유닛 회귀 네트워크(TURN) 모델을 제안한다. TURN의 두 가지 주요 특징은 다음과 같다: (1) TURN은 행동 제안을 공동으로 예측하고 시간 좌표 회귀를 통해 시간 경계를 개선한다; (2) 유닛 특성 재사용을 통해 빠른 계산이 가능하다: 긴 원본 비디오는 비디오 유닛으로 분해되며, 이들은 시간적 제안의 기본 구성 요소로 재사용된다. TURN은 THUMOS-14 및 ActivityNet 데이터셋에서 평균 재현율(AR) 측면에서 기존 최신 방법론들을 크게 능가하며, TITAN X GPU에서 초당 880프레임(FPS) 이상의 속도로 실행된다. 또한 우리는 기존의 시간적 행동 위치 결정 파이프라인에 TURN을 제안 생성 단계로 적용하였으며, 이는 THUMOS-14 및 ActivityNet에서 최신 성능을 크게 능가하였다.