BiPO: 텍스트-모션 합성용 양방향 부분 가림망

텍스트 설명으로부터 자연스럽고 표현력 있는 인간 동작을 생성하는 것은 전체 신체 역학을 조정하고, 주어진 텍스트를 정확히 반영하는 복잡한 동작 패턴을 장시간에 걸쳐 포착하는 데 있어 어려움이 따릅니다. 이를 해결하기 위해, 본 연구에서는 BiPO (Bidirectional Partial Occlusion Network)라는 새로운 모델을 소개합니다. BiPO는 부분 기반 생성과 양방향 자기회귀 구조를 통합하여 텍스트-동작 합성(text-to-motion synthesis)의 성능을 향상시킵니다. 이러한 통합은 BiPO가 생성 과정에서 과거와 미래의 문맥을 동시에 고려할 수 있게 하며, 지면 진리(ground-truth) 동작 길이를 요구하지 않고도 개별 신체 부위에 대한 상세한 제어를 강화합니다. 통합으로 인해 발생하는 신체 부위 간의 상호 의존성을 완화하기 위해, 우리는 확률적으로 특정 동작 부분 정보를 가리는 부분 은폐(Partial Occlusion) 기술을 설계하였습니다. 우리의 철저한 실험 결과, BiPO는 HumanML3D 데이터셋에서 최신 방법론인 ParCo, MoMask, 그리고 BAMM보다 FID 점수와 전반적인 동작 품질 면에서 우수한 성능을 보였습니다. 특히, BiPO는 텍스트-동작 생성 작업뿐만 아니라 부분적으로 생성된 동작 시퀀스와 텍스트 설명을 바탕으로 동작을 합성하는 동작 편집 작업에서도 뛰어난 성능을 발휘하였습니다. 이러한 결과는 BiPO가 텍스트-동장 합성 분야에서의 발전에 효과적이며, 실용적인 응용 가능성을 가지고 있음을 나타냅니다.