2달 전

시연 동영상에서 대상 이미지로의 아포던스 그라운딩

Joya Chen; Difei Gao; Kevin Qinghong Lin; Mike Zheng Shou
시연 동영상에서 대상 이미지로의 아포던스 그라운딩
초록

인간은 전문가의 시연에서 배우고 자신의 문제를 해결하는 데 뛰어납니다. 이러한 능력을 지능형 로봇과 지원 시스템, 예를 들어 AR 안경에 부여하기 위해서는, 시연 동영상에서 인간의 손동작(즉, 사용 가능성)을 추출하여 사용자의 AR 안경 화면 같은 대상 이미지에 적용하는 것이 필수적입니다. 비디오-이미지 사용 가능성 추출 작업은 (1) 미세한 사용 가능성을 예측해야 하는 필요성과 (2) 비디오와 이미지 간의 차이점을 충분히 포함하지 못하는 제한된 훈련 데이터로 인해 어려움을 겪습니다. 이를 해결하기 위해 우리는 Afformer(사용 가능성 변환기)를 제안합니다. 이 모델은 미세한 사용 가능성을 점진적으로 개선하는 변환기 기반 디코더를 갖추고 있습니다. 또한, MaskAHand(마스크 사용 가능성 손)이라는 자기 감독 사전 학습 기법을 소개합니다. 이 기법은 비디오-이미지 데이터를 합성하고 맥락 변화를 시뮬레이션하여 비디오와 이미지 간의 차이점에서 사용 가능성을 개선하는 데 도움을 줍니다. MaskAHand 사전 학습을 적용한 Afformer는 여러 벤치마크에서 최고 수준의 성능을 달성하였으며, 특히 OPRA 데이터셋에서는 37%의 큰 성능 향상을 보였습니다. 코드는 https://github.com/showlab/afformer 에서 제공됩니다.

시연 동영상에서 대상 이미지로의 아포던스 그라운딩 | 최신 연구 논문 | HyperAI초신경