11일 전

이중 DETR을 이용한 다중 레이블 시계열 동작 탐지

Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, Limin Wang
이중 DETR을 이용한 다중 레이블 시계열 동작 탐지
초록

시간 행동 탐지(Temporal Action Detection, TAD)는 정제되지 않은 비디오 내에서 행동의 경계와 해당 카테고리를 식별하는 것을 목표로 한다. 객체 탐지에서 DETR의 성공을 영감으로 삼아, 여러 연구들이 쿼리 기반 프레임워크를 TAD 작업에 적응시켰다. 그러나 이러한 접근 방식은 주로 DETR의 방식을 따르며 행동을 인스턴스 수준에서 예측(즉, 각 행동의 중심점을 기반으로 식별)하는 데 집중하여 경계 정밀도가 최적화되지 못하는 문제가 있었다. 이 문제를 해결하기 위해, 본 연구에서는 인스턴스 수준과 경계 수준에서 모두 행동을 탐지할 수 있는 새로운 이중 수준 쿼리 기반 TAD 프레임워크인 DualDETR를 제안한다. 서로 다른 수준에서의 디코딩은 서로 다른 세부 수준의 의미 정보를 필요로 하므로, 본 연구는 이중 브랜치 디코딩 구조를 도입한다. 이 구조는 각 수준에 맞는 독자적인 디코딩 프로세스를 구축함으로써, 각 수준에서 시간적 신호와 의미 정보를 명시적으로 포착할 수 있도록 한다. 이중 브랜치 설계를 기반으로, 본 연구는 두 수준의 쿼리 간 일치를 도모하는 공동 쿼리 초기화 전략을 제안한다. 구체적으로, 인코더에서 생성된 제안(proposal)을 활용하여 각 수준의 쿼리를 일대일로 매칭한다. 이후, 매칭된 쿼리는 해당 행동 제안에서 추출한 위치 및 콘텐츠 사전 정보를 바탕으로 초기화된다. 일치된 이중 수준 쿼리는 이후 디코딩 과정에서 보완적인 신호를 제공하며, 매칭된 제안을 보다 정밀하게 개선할 수 있다. DualDETR는 세 가지 도전적인 다중 레이블 TAD 벤치마크에서 평가되었으며, 실험 결과는 기존 최첨단 기법 대비 DualDETR의 우수한 성능을 입증하였다. 특히, det-mAP 기준에서 상당한 성능 향상을 기록하였으며, seg-mAP 기준에서도 뛰어난 성과를 달성하였다.

이중 DETR을 이용한 다중 레이블 시계열 동작 탐지 | 최신 연구 논문 | HyperAI초신경