2달 전

BlenderFusion: 3D 기반 시각적 편집 및 생성적 합성

Chen, Jiacheng, Mehran, Ramin, Jia, Xuhui, Xie, Saining, Woo, Sanghyun

초록

우리는 BlenderFusion을 소개합니다. 이 생성형 시각 합성 프레임워크는 객체, 카메라, 배경을 재구성하여 새로운 장면을 합성합니다. BlenderFusion은 다음과 같은 레이어링-편집-합성 파이프라인을 따릅니다: (i) 시각 입력을 편집 가능한 3D 엔티티로 분할 및 변환하는 단계(레이어링), (ii) Blender에서 3D 기반 제어를 사용하여 이를 편집하는 단계(편집), 그리고 (iii) 생성형 합성기를 사용하여 일관된 장면으로 융합하는 단계(합성)입니다. 우리의 생성형 합성기는 사전 훈련된 확산 모델을 확장하여 원본(소스) 장면과 편집된(타겟) 장면을 동시에 처리할 수 있습니다. 이 모델은 두 가지 주요 훈련 전략을 사용하여 비디오 프레임에 대해 미세 조정됩니다: (i) 소스 마스킹, 배경 교체와 같은 유연한 수정을 가능하게 하는 전략; (ii) 시뮬레이션된 객체 점프링, 객체와 카메라에 대한 독립적인 제어를 용이하게 하는 전략입니다. BlenderFusion은 복잡한 구성적 장면 편집 작업에서 기존 방법들보다 크게 우수한 성능을 보여줍니다.