2달 전

QPIC: 쿼리 기반의 이미지 전체 문맥 정보를 활용한 사람-물체 상호작용 검출

Tamura, Masato ; Ohashi, Hiroki ; Yoshinaga, Tomoaki
QPIC: 쿼리 기반의 이미지 전체 문맥 정보를 활용한 사람-물체 상호작용 검출
초록

우리는 인간-물체 상호작용(Human-Object Interaction, HOI) 검출을 위한 간단하면서 직관적이면서도 강력한 방법을 제안합니다. 이미지 내에서 HOI는 공간적으로 매우 다양하게 분포되어 있어 기존의 CNN(C Convolutional Neural Network)-기반 방법들이 다음과 같은 세 가지 주요 단점을 가지고 있습니다. 첫째, CNN의 지역성 때문에 전체 이미지 범위의 특징을 활용할 수 없습니다. 둘째, 특징 집계를 위해 수동으로 정의된 관심 영역에 의존하지만, 이는 때때로 문맥적으로 중요한 영역을 포함하지 못하는 경우가 있습니다. 셋째, 여러 HOI 인스턴스가 가까이 위치해 있을 경우 그 특징들을 혼동할 수밖에 없습니다.이러한 단점을 극복하기 위해 우리는 어텐션 메커니즘과 쿼리 기반 검출이 핵심 역할을 하는 트랜스포머(Transformer)-기반 특징 추출기를 제안합니다. 어텐션 메커니즘은 전체 이미지 범위에서 문맥적으로 중요한 정보를 효과적으로 집계하는 데 유용하며, 각 쿼리가 최대 한 개의 인간-물체 쌍만 포착하도록 설계된 쿼리를 통해 여러 인스턴스 간의 특징 혼동을 피할 수 있습니다. 이 트랜스포머 기반 특징 추출기는 매우 효과적인 임베딩(embedding)을 생성하여 후속 검출 헤드들이 상당히 간단하고 직관적일 수 있게 합니다.범위 넓은 분석 결과, 제안된 방법이 문맥적으로 중요한 특징을 성공적으로 추출하였으며, 따라서 기존 방법들보다 크게 우수한 성능(mAP)을 보였습니다(HICO-DET에서 5.37 mAP, V-COCO에서 5.7 mAP). 소스 코드는 $\href{https://github.com/hitachi-rd-cv/qpic}{\text{이 링크}}$에서 확인 가능합니다.

QPIC: 쿼리 기반의 이미지 전체 문맥 정보를 활용한 사람-물체 상호작용 검출 | 최신 연구 논문 | HyperAI초신경