2달 전

Chat-Edit-3D: 텍스트 프롬프트를 통한 대화형 3D 장면 편집

Fang, Shuangkang ; Wang, Yufeng ; Tsai, Yi-Hsuan ; Yang, Yi ; Ding, Wenrui ; Zhou, Shuchang ; Yang, Ming-Hsuan

초록

최근 시각-언어 사전학습 모델을 기반으로 한 이미지 콘텐츠 조작 연구가 텍스트 기반의 3D 장면 편집으로 효과적으로 확장되었습니다. 그러나 기존의 3D 장면 편집 방식은 여전히 특정 단점들을 보이고 있어, 이로 인해 상호작용적인 설계에 제약을 받고 있습니다. 이러한 방식들은 일반적으로 고정된 입력 패턴을 따르므로 사용자의 텍스트 입력 유연성을 제한합니다. 또한, 그들의 편집 능력은 하나 또는 몇 개의 2D 시각 모델에 의해 제한되며, 이러한 모델들을 3D 재구성 과정에 통합하기 위해서는 복잡한 파이프라인 설계가 필요합니다. 위와 같은 문제를 해결하기 위해, 우리는 사용자로부터 임의의 텍스트 입력을 받아들이고 그 의도를 해석하여 해당 시각 전문 모델을 자동으로 호출하는 대화 기반의 3D 장면 편집 접근법인 CE3D를 제안합니다. 또한, Hash-Atlas(해시-아틀라스)를 이용하여 3D 장면 뷰를 표현하는 방식을 설계하여, 3D 장면의 편집을 2D 아틀라스 이미지로 이전시키는 방법을 도입하였습니다. 이 설계는 2D 편집과 3D 재구성 과정 사이에서 완전한 분리를 실현하며, CE3D가 복잡한 융합 설계 없이 다양한 기존의 2D 또는 3D 시각 모델을 유연하게 통합할 수 있게 합니다. 실험 결과는 CE3D가 여러 시각 모델을 효과적으로 통합하여 다양한 편집 시각 효과를 달성하고, 강력한 장면 이해 능력과 다중 라운드 대화 능력을 갖추고 있음을 보여줍니다. 코드는 https://sk-fun.fun/CE3D에서 제공됩니다.