16일 전

1000프레임에 걸쳐 10억 파라미터를 갖는 엔드투엔드 시계열 동작 탐지

Shuming Liu, Chen-Lin Zhang, Chen Zhao, Bernard Ghanem
1000프레임에 걸쳐 10억 파라미터를 갖는 엔드투엔드 시계열 동작 탐지
초록

최근에 종단 간 학습(end-to-end training)을 통해 시간 행동 탐지(Temporal Action Detection, TAD)의 성능이 크게 향상되었다. 그러나 메모리 한계로 인해 종단 간 학습을 수행할 수 있는 모델은 규모가 제한적이고, 입력 데이터도 제한된 양에 그치게 되어 TAD 성능에 필연적으로 제약이 생기고 있다. 본 논문에서는 종단 간 학습 시 메모리 소비를 줄이는 방법을 제안하며, TAD 백본을 10억 파라미터 규모로 확장하고 입력 영상의 프레임 수를 1,536개까지 늘리는 데 성공하여 상당한 탐지 성능 향상을 달성하였다. 본 방법의 핵심은 제안한 시간 정보 적응 모듈(Temporal-Informative Adapter, TIA)에 있다. TIA는 가볍고 새로운 구조의 모듈로, 학습 시 메모리 사용량을 감소시키는 데 기여한다. TIA를 사용함으로써, 거대한 백본 모델이 TAD 작업에 적응하기 위해 모든 파라미터를 업데이트할 필요 없이, 단지 TIA 내부의 파라미터만 업데이트함으로써 효율적인 학습이 가능해진다. 또한 TIA는 백본 전체에 걸쳐 인접 프레임의 시계열적 맥락을 통합함으로써 더 나은 TAD 표현을 생성한다. 제안한 모델은 네 가지 대표적인 데이터셋에서 평가되었으며, 효율적인 설계 덕분에 VideoMAEv2-giant에서 종단 간 학습을 수행할 수 있었고, THUMOS14에서 75.4%의 mAP를 달성하여 기존의 최고 성능을 보인 특징 기반 방법들을 처음으로 초월하는 종단 간 모델이 되었다. 코드는 https://github.com/sming256/AdaTAD 에서 공개되어 있다.

1000프레임에 걸쳐 10억 파라미터를 갖는 엔드투엔드 시계열 동작 탐지 | 최신 연구 논문 | HyperAI초신경