11일 전
ReAct: 관계 쿼리를 활용한 시계열 동작 탐지
Dingfeng Shi, Yujie Zhong, Qiong Cao, Jing Zhang, Lin Ma, Jia Li, Dacheng Tao

초록
이 연구는 객체 탐지에서 큰 성공을 거둔 DETR와 유사한 액션 쿼리를 활용한 인코더-디코더 프레임워크를 사용하여 시간적 액션 탐지(Temporal Action Detection, TAD)를 향상시키는 것을 목표로 한다. 그러나 이 프레임워크를 TAD에 직접 적용할 경우 몇 가지 문제점이 발생한다. 첫째, 디코더 내에서 쿼리 간 관계 탐색이 부족하며, 둘째, 학습 샘플 수가 제한적이기 때문에 액션 분류 학습이 부족하며, 셋째, 추론 시 분류 점수가 신뢰할 수 없게 된다. 이를 해결하기 위해 본 연구는 디코더 내에서 쿼리 간 관계를 기반으로 주의 집중을 유도하는 관계 기반 주의 메커니즘을 제안한다. 또한 액션 분류 학습을 촉진하고 안정화하기 위해 두 가지 새로운 손실 함수를 제안한다. 마지막으로, 추론 과정에서 각 액션 쿼리의 위치 지정 품질을 예측함으로써 고품질 쿼리를 구분할 수 있도록 한다. 제안한 방법은 ReAct라 명명되며, THUMOS14 데이터셋에서 기존 방법들보다 훨씬 낮은 계산 비용으로 최신 기술 수준의 성능을 달성한다. 또한 각 제안된 구성 요소의 효과를 검증하기 위해 광범위한 아블레이션 연구를 수행하였다. 코드는 https://github.com/sssste/React 에 공개되어 있다.