Command Palette
Search for a command to run...
Xinhao Cai Minghang Zheng Xin Jin Yang Liu

초록
우리는 이동 가능한 물체를 포함하는 3D 장면에서 텍스트 제어형 인간-물체 상호작용 생성이라는 새로운 과제를 제안한다. 기존의 인간-장면 상호작용 데이터셋은 상호작용 카테고리가 부족하며, 일반적으로 위치가 고정된 정적 물체(물체의 위치가 변경되지 않음)와의 상호작용만 고려하고 있다. 이동 가능한 물체를 포함하는 데이터셋을 수집하는 것은 매우 어렵고 비용이 많이 든다. 이러한 문제를 해결하기 위해, 기존의 인간-물체 상호작용 데이터를 장면 맥락과 정렬함으로써 3D 장면 내 이동 가능한 인간-물체 상호작용을 위한 새로운 데이터셋인 InteractMove를 구축하였다. 본 데이터셋은 다음과 같은 세 가지 핵심 특징을 갖는다: 1) 여러 개의 이동 가능한 물체를 포함한 장면과 텍스트로 제어되는 상호작용 명세(동일한 카테고리의 방해 요소를 포함하여 공간적 및 3D 장면 맥락 이해가 필요함), 2) 다양한 종류와 크기의 물체 및 다양한 상호작용 패턴(한손, 양손 등), 3) 물리적으로 타당한 물체 조작 경로. 다양한 이동 가능한 물체를 도입함으로써 이 과제는 더욱 도전적으로 되었으며, 모델은 상호작용 대상 물체를 정확히 식별하고, 크기와 카테고리가 다른 물체와 상호작용하는 법을 학습하며, 이동 가능한 물체와 장면 간의 충돌을 피해야 한다. 이러한 도전 과제를 해결하기 위해, 새로운 파이프라인 솔루션을 제안한다. 먼저, 3D 시각적 기저 모델을 활용하여 상호작용 대상 물체를 식별한다. 다음으로, 손-물체 공동 가능성 학습을 제안하여 다양한 손 관절과 물체 부위에 대한 접촉 영역을 예측함으로써 다양한 물체에 대한 정밀한 잡기 및 조작이 가능하도록 한다. 마지막으로, 국소적 장면 모델링과 충돌 회피 제약 조건을 통한 최적화를 통해 물리적으로 타당한 움직임을 보장하고, 물체와 장면 간의 충돌을 방지한다. 광범위한 실험을 통해 기존 방법에 비해 본 방법이 물리적으로 타당하고 텍스트 지시에 부합하는 상호작용 생성에서 우수한 성능을 발휘함을 입증하였다.