11일 전

PaStaNet: 인간 활동 지식 엔진을 향해

Yong-Lu Li, Liang Xu, Xinpeng Liu, Xijie Huang, Yue Xu, Shiyi Wang, Hao-Shu Fang, Ze Ma, Mingyang Chen, Cewu Lu
PaStaNet: 인간 활동 지식 엔진을 향해
초록

기존의 이미지 기반 행동 이해 방법들은 주로 이미지에서 행동 개념으로 직접 매핑하는 방식을 채택하고 있는데, 이는 행동 개념과 이미지 간의 거대한 격차로 인해 성능 한계에 부딪힐 수 있다. 이러한 문제를 고려하여, 우리는 새로운 접근 방식을 제안한다. 즉, 먼저 인간의 신체 부위 상태를 추론한 후, 해당 부위 수준의 의미 정보를 기반으로 행동을 추론하는 방식이다. 인간 신체 부위 상태(PaSta, Human Body Part States)는 세부적인 행동 의미 토큰으로, 예를 들어 <손, 들고 있음, 무언가>와 같은 형태이며, 이러한 PaSta는 다양한 행동을 구성할 수 있으며 인간 행동 지식 엔진으로 나아가는 데 도움을 준다. PaSta의 잠재력을 극대화하기 위해, 700만 건 이상의 PaSta annotation을 포함하는 대규모 지식 기반 PaStaNet을 구축하였다. 이를 위해 두 가지 모델을 제안한다. 첫째, 다양한 행동에 대해 일반적인 표현을 추출할 수 있도록 Activity2Vec라는 모델을 설계하였다. 둘째, PaSta 기반 추론 방법을 사용하여 행동을 추론한다. PaStaNet의 지원을 통해, 본 방법은 뚜렷한 성능 향상을 달성하였으며, 감독 학습 기반에서 HICO 데이터셋의 전체 및 일회 학습(set)에서 각각 6.4 및 13.9 mAP를 기록하였고, 전이 학습 기반에서는 V-COCO 및 이미지 기반 AVA에서 각각 3.2 및 4.2 mAP의 성능을 달성하였다. 코드와 데이터는 http://hake-mvig.cn/ 에 공개되어 있다.

PaStaNet: 인간 활동 지식 엔진을 향해 | 최신 연구 논문 | HyperAI초신경