2달 전

시간에 따른 상호작용을 활용한 반지도 3D 손-물체 자세 추정

Liu, Shaowei ; Jiang, Hanwen ; Xu, Jiarui ; Liu, Sifei ; Wang, Xiaolong
시간에 따른 상호작용을 활용한 반지도 3D 손-물체 자세 추정
초록

단일 이미지에서 3D 손과 물체의 자세를 추정하는 것은 매우 어려운 문제입니다: 상호작용 중에 손과 물체는 종종 자기 자신을 가리게 되며, 단일 이미지에서조차 인간도 완벽하게 지면 진실(ground-truth)을 직접 라벨링할 수 없기 때문에 3D 주석이 부족합니다. 이러한 도전 과제를 해결하기 위해, 우리는 반감독 학습(semi-supervised learning)을 사용하여 3D 손과 물체의 자세를 추정하는 통합 프레임워크를 제안합니다. 우리는 Transformer를 통해 손과 물체 표현 간의 명시적인 문맥 추론을 수행하는 공동 학습 프레임워크를 구축하였습니다. 단일 이미지에서 제한된 3D 주석을 넘어서, 우리는 대규모 손-물체 비디오에서 공간-시간 일관성을 활용하여 반감독 학습에서 의사 라벨(pseudo labels)을 생성하는 제약 조건으로 사용하였습니다. 우리의 방법은 도전적인 실제 데이터셋에서 손 자세 추정을 개선不僅如此,还显著提高了每个实例中地面实况较少的物体自姿估计的准确性。通过使用大规模多样的视频进行训练,我们的模型在多个域外数据集上的泛化能力也更强。项目页面和代码: https://stevenlsw.github.io/Semi-Hand-Object为了确保翻译的准确性和流畅性,以下是修正后的韩文翻译:단일 이미지에서 3D 손과 물체의 자세를 추정하는 것은 매우 어려운 문제입니다: 상호작용 중에 손과 물체는 종종 자기 자신을 가리게 되며, 단일 이미지에서조차 인간도 완벽하게 지면 진실(ground-truth)을 직접 라벨링할 수 없기 때문에 3D 주석이 부족합니다. 이러한 도전 과제를 해결하기 위해, 우리는 반감독 학습(semi-supervised learning)을 사용하여 3D 손과 물체의 자세를 추정하는 통합 프레임워크를 제안합니다. 우리는 Transformer를 통해 손과 물체 표현 간의 명시적인 문맥 추론을 수행하는 공동 학습 프레임워크를 구축하였습니다. 단일 이미지에서 제한된 3D 주석을 넘어서, 우리는 대규모 손-물체 비디오에서 공간-시간 일관성을 활용하여 반감독 학습에서 의사 라벨(pseudo labels)을 생성하는 제약 조건으로 사용하였습니다. 우리의 방법은 도전적인 실제 데이터셋에서 손 자세 추정 성능을 향상시키는 것뿐만 아니라, 각 인스턴스당 지면 진실(ground-truth)이 적은 물체 자세 추정 정확도도 크게 향상시킵니다. 대규모 다양한 비디오로 훈련함으로써, 우리의 모델은 여러 영역 외 데이터셋에서도 더 우수한 일반화 능력을 보입니다. 프로젝트 페이지와 코드: https://stevenlsw.github.io/Semi-Hand-Object

시간에 따른 상호작용을 활용한 반지도 3D 손-물체 자세 추정 | 최신 연구 논문 | HyperAI초신경