18일 전
언어 기반 시나리오 합성: 다중 조건 diffusion 모델을 활용한 방법
{Anh Nguyen, Thieu Vo, Dzung Nguyen, Baoru Huang, Toan Tien Nguyen, Minh Nhat Vu, An Vuong}

초록
장면 합성은 여러 산업적 응용이 가능한 도전적인 문제이다. 최근 들어 인간의 움직임, 실내 배치, 공간 그래프 등을 입력으로 활용하여 장면을 합성하는 데 대한 연구가 활발히 진행되고 있다. 그러나 다중 모달리티, 특히 텍스트 프롬프트를 결합한 접근은 여전히 거의 다뤄지지 않은 분야이다. 본 논문에서는 텍스트 프롬프트, 인간의 움직임, 기존 객체를 통합하여 장면을 합성하는 새로운 언어 주도 장면 합성(task)을 제안한다. 다른 단일 조건 기반 합성 작업과 달리, 본 연구는 다중 조건을 동시에 고려하며, 이를 통합된 공간으로 처리하고 인코딩하는 전략이 필요하다. 이러한 도전에 대응하기 위해, 기존의 확산 모델 문헌에서 흔히 사용되는 암묵적 통합 방식과는 달리, 원본 데이터 분포에 대한 안내 포인트를 명시적으로 예측하는 다중 조건 확산 모델을 제안한다. 이 접근법이 이론적으로 타당함을 입증하며, 철저한 실험 결과를 통해 기존 최고 수준의 벤치마크를 능가함을 보였다. 또한 자연스러운 장면 편집 응용을 가능하게 한다. 소스 코드 및 데이터셋은 다음 링크에서 접근할 수 있다: https://lang-scene-synth.github.io/.