InterMask: 협업 마스킹 모델링을 통한 3D 인간 상호작용 생성

텍스트 설명으로부터 실제적인 3D 인간-인간 상호작용을 생성하는 것은 여전히 어려운 과제입니다. 기존 접근 방식은 확산 모델을 기반으로 하는 경우가 많아, 종종 현실감과 충실성이 부족한 결과를 생성합니다. 본 연구에서는 이 문제를 해결하기 위해 이산 공간에서 협업 마스킹 모델링을 사용하여 인간 상호작용을 생성하는 새로운 프레임워크인 InterMask를 소개합니다. InterMask는 먼저 각 움직임 시퀀스를 2D 이산 움직임 토큰 맵으로 변환하기 위해 VQ-VAE를 활용합니다. 전통적인 1D VQ 토큰 맵과 달리, 이 방법은 세부적인 시공간 정보를 더 잘 보존하고 각 토큰 내의 공간 인식을 강화합니다. 이러한 표현을 바탕으로, InterMask는 두 개체 간의 상호작용을 모델링하기 위해 생성적 마스킹 모델링 프레임워크를 사용합니다. 이를 위해 복잡한 시공간 상호 의존성을 포착하도록 특별히 설계된 트랜스포머 아키텍처를 활용합니다. 학습 과정에서는 두 개체의 움직임 토큰을 무작위로 마스킹하고 이를 예측하도록 학습합니다. 추론 단계에서는 완전히 마스킹된 시퀀스에서 시작하여 점진적으로 두 개체의 토큰을 채워갑니다. 강화된 움직임 표현, 전문적인 아키텍처, 그리고 효과적인 학습 전략 덕분에 InterMask는 최고 수준의 성능을 발휘하며, 고충실도와 다양성 있는 인간 상호작용을 생성합니다. InterHuman 데이터셋에서 FID 5.154(기존 in2IN의 5.535 대비)와 InterX 데이터셋에서 FID 0.399(기존 InterGen의 5.207 대비)라는 성능으로 기존 방법들을 능가했습니다. 또한, InterMask는 모델 재설계나 미세 조정 없이 반응 생성을 원활하게 지원합니다.