15일 전

ActionFormer: Transformers를 활용한 행동 순간의 위치 특정

Chenlin Zhang, Jianxin Wu, Yin Li
ActionFormer: Transformers를 활용한 행동 순간의 위치 특정
초록

자기주의(self-attention) 기반의 트랜스포머 모델은 이미지 분류 및 객체 탐지에서 뛰어난 성과를 보였으며, 최근에는 영상 이해 분야에서도 성공을 거두고 있다. 이러한 성공에 영감을 받아, 본 연구는 트랜스포머 네트워크를 영상 내 시간적 행동 위치 탐지(temporal action localization)에 적용하는 것을 탐구한다. 이를 위해 우리는 ActionFormer을 제안한다. ActionFormer은 행동을 시간적으로 식별하고, 단일 추론 단계(single shot)에서 해당 행동의 카테고리를 인식하는 간단하면서도 강력한 모델로, 행동 제안(action proposals)이나 미리 정의된 앵커 창(anchor windows)에 의존하지 않는다. ActionFormer은 다중 해상도 특징 표현과 국소적 자기주의(self-attention)를 결합하여, 가벼운 디코더(light-weighted decoder)를 사용해 시간의 모든 순간에 대해 행동을 분류하고 해당 행동의 경계를 추정한다. 우리는 이러한 체계적인 설계가 기존 연구들에 비해 상당한 성능 향상을 가져온다는 것을 보여준다. 복잡한 부가 기능 없이도 ActionFormer은 THUMOS14에서 tIoU=0.5 조건에서 71.0%의 mAP를 달성하며, 기존 최고 성능 모델보다 14.1%p의 절대적인 성능 향상을 이뤘다. 또한, ActivityNet 1.3(평균 mAP 36.6%)과 EPIC-Kitchens 100(기존 연구 대비 +13.5% 평균 mAP)에서도 뛰어난 성능을 보였다. 코드는 http://github.com/happyharrycn/actionformer_release 에서 공개되어 있다.

ActionFormer: Transformers를 활용한 행동 순간의 위치 특정 | 최신 연구 논문 | HyperAI초신경