17일 전

Transformer 기반의 두 손이 물체를 조작하는 통합 인식

{Seungryul Baek, Elkhan Ismayilzada, Seongyeong Lee, Jihyeon Kim, Chanwoo Kim, Hoseong Cho}
Transformer 기반의 두 손이 물체를 조작하는 통합 인식
초록

최근 들어, 자기 중심 시각(egocentric video)에서 손과 물체 간의 상호작용을 이해하는 것에 대한 관심이 크게 증가하고 있다. 기존의 대부분의 접근 방식은 두 손, 물체 및 그 상호작용에 대한 통합적 이해를 제공하기 위해 합성곱 신경망(CNN) 특징과 장단기 기억망(LSTM) 또는 그래프 합성곱 네트워크(GCN)를 활용한 시계열 인코딩을 결합한 방식을 사용해왔다. 본 논문에서는 두 손이 물체를 조작하는 과정을 보다 정교하게 이해할 수 있도록, 트랜스포머 기반의 통합적 프레임워크를 제안한다. 제안하는 프레임워크는 두 손, 물체 및 그 상호작용을 포함하는 전체 이미지를 입력으로 하며, 각 프레임에서 세 가지 정보를 동시에 추정한다: 두 손의 자세, 물체의 자세, 그리고 물체의 종류. 이후, 추정된 정보와 손과 물체 간의 상호작용을 인코딩하는 접촉 맵(contacts map)을 기반으로 전체 영상에서 손-물체 상호작용에 의해 정의된 동작 클래스를 예측한다. 제안한 방법은 H2O 및 FPHA 벤치마크 데이터셋에서 실험을 수행하여, 최첨단 성능을 달성함을 입증하였다. 추가적인 아블레이션 연구를 통해 제안한 각 모듈의 효과성 또한 확인되었다.