2달 전
BAD: 텍스트-모션 생성을 위한 양방향 자기회귀 확산 모델
Hosseyni, S. Rohollah ; Rahmani, Ali Ahmad ; Seyedmohammadi, S. Jamal ; Seyedin, Sanaz ; Mohammadi, Arash

초록
자기회귀 모델은 인과 제약을 적용하여 순차적 의존성을 모델링하는 데 우수하지만, 단방향 특성으로 인해 복잡한 양방향 패턴을 포착하는 데 어려움을 겪습니다. 반면에 마스크 기반 모델은 양방향 맥락을 활용하여 더 풍부한 의존성 모델링이 가능합니다. 그러나 예측 과정에서 토큰의 독립성을 가정하는 경우가 많아, 이는 순차적 의존성의 모델링을 약화시킵니다. 또한, 마스킹이나 흡수를 통해 시퀀스가 손상되면 비자연적인 왜곡이 발생할 수 있어 학습 과정을 복잡하게 만듭니다.이러한 문제를 해결하기 위해 우리는 자기회귀와 마스크 기반 생성 모델의 장점을 통합한 새로운 접근 방식인 양방향 자기회귀 확산(BAD, Bidirectional Autoregressive Diffusion)을 제안합니다. BAD는 자연적인 시퀀스 구조를 유지하면서 인과적 의존성을 강제로 적용하는 순서화된 랜덤화 기술을 사용하는 순서 변환 기반 손상 기법을 활용합니다. 이를 통해 순차적 관계와 양방향 관계를 효과적으로 포착할 수 있습니다. 광범위한 실험 결과, BAD가 텍스트-모션 생성에서 자기회귀 및 마스크 기반 모델보다 우수함이 입증되었습니다. 이는 시퀀스 모델링에 대한 새로운 사전 학습 전략을 제시하고 있습니다. BAD의 코드베이스는 https://github.com/RohollahHS/BAD에서 이용 가능합니다.