11일 전

작업을 움직이는 점으로 보는 것

Yixuan Li, Zixu Wang, Limin Wang, Gangshan Wu
작업을 움직이는 점으로 보는 것
초록

기존의 액션 튜브릿 탐지기들은 종종 히우리스틱 기반의 앵커 설계와 배치에 의존하여, 정밀한 위치 추정에 있어 계산 비용이 높고 최적화되지 않은 경우가 많다. 본 논문에서는 액션 인스턴스를 이동하는 점들의 궤적(trajec­tory)으로 간주함으로써 개념적으로 단순하고 계산 효율적이며 더 정밀한 액션 튜브릿 탐지 프레임워크인 MovingCenter Detector(MOC-_detector)를 제안한다. 이 접근법의 핵심 통찰은 운동 정보가 액션 튜브릿 탐지 과정을 단순화하고 보조할 수 있다는 점에 있다. MOC-_detector는 세 가지 핵심 헤드 브랜치로 구성된다: (1) 중심 브랜치(Instance Center Detection 및 액션 인식), (2) 운동 브랜치(연속 프레임 간의 운동 추정을 통해 이동 점의 궤적 생성), (3) 박스 브랜치(각 추정된 중심점에서 직접 경계 상자(box) 크기를 회귀하여 공간적 범위 탐지). 이 세 가지 브랜치는 함께 작동하여 튜브릿 탐지 결과를 생성하며, 매칭 전략을 통해 추가로 영상 수준의 튜브를 연결할 수 있다. 제안된 MOC-_detector는 JHMDB 및 UCF101-24 데이터셋에서 프레임-mAP와 영상-mAP 두 가지 지표 모두 기존 최고 성능 기법들을 상회한다. 특히 더 높은 영상 IoU(Intersection over Union) 기준에서 성능 차이가 더욱 두드러지며, 이는 본 연구의 MOC-_detector가 정밀한 액션 탐지에 특히 효과적임을 보여준다. 코드는 https://github.com/MCG-NJU/MOC-Detector 에 공개되어 있다.

작업을 움직이는 점으로 보는 것 | 최신 연구 논문 | HyperAI초신경