8일 전

상호작용적 손-객체 자세 추정을 위한 조화로운 특징 학습

{Shaoli Huang, Zengsheng Kuang, Huan Yao, Changxing Ding, Zhifeng Lin}
상호작용적 손-객체 자세 추정을 위한 조화로운 특징 학습
초록

단일 이미지에서 손과 물체의 자세를 동시에 추정하는 것은 손과 물체가 상호작용할 때 발생하는 심각한 가림 현상으로 인해 매우 도전적인 과제이다. 기존의 접근 방식들은 일반적으로 단일 백본(Backbone)에서 손과 물체의 대략적인 특징을 추출한 후, 상호작용 모듈을 통해 서로의 특징을 보강하는 방식을 취한다. 그러나 이러한 기존 연구들은 손과 물체가 특징 학습 과정에서 경쟁 관계에 있음을 간과하고 있다. 왜냐하면 백본 모델은 둘 다 전경(foreground)으로 간주하며, 보통 서로를 가리며 상호 가림이 발생하기 때문이다. 본 논문에서는 새로운 조화로운 특징 학습 네트워크(Harmonious Feature Learning Network, HFL-Net)를 제안한다. HFL-Net은 단일 스트림과 이중 스트림 백본의 장점을 결합한 새로운 프레임워크를 제안한다. 이 네트워크는 공통된 ResNet-50 모델의 저수준 및 고수준 합성곱 계층의 파라미터를 손과 물체에 공유하면서, 중간 수준의 계층은 공유하지 않는다. 이러한 전략은 중간 수준의 계층이 손과 물체를 각각 독립적인 목표로 추출하도록 유도하여, 특징 학습 과정에서의 상호 경쟁을 방지한다. 또한 공유된 고수준 계층은 두 개체의 특징이 조화롭게 학습되도록 유도함으로써, 서로의 특징을 효과적으로 보강할 수 있도록 한다. 특히, 물체 스트림에서 동일 위치의 특징과 손의 특징을 연결(Concatenation)하여 손의 특징을 강화하는 방법을 제안한다. 이후에 이 연결된 특징을 깊이 있게 융합하기 위해 자기 주의(Self-attention) 레이어를 도입한다. 실험 결과, 제안하는 방법은 대표적인 HO3D 및 Dex-YCB 데이터베이스에서 기존 최고 성능(SOTA) 방법들을 일관되게 상회함을 확인하였다. 특히, 단일 손 자세 추정만을 수행하는 기존 작업들에 비해, 본 모델의 손 자세 추정 성능이 더욱 뛰어나다는 점이 주목할 만하다. 코드는 다음 주소에서 공개되어 있다: https://github.com/lzfff12/HFL-Net.

상호작용적 손-객체 자세 추정을 위한 조화로운 특징 학습 | 최신 연구 논문 | HyperAI초신경