Command Palette

Search for a command to run...

2달 전

MV-RAG: 다중 시점 확산을 위한 검색 증강 기법

Yosef Dayani Omer Benishu Sagie Benaim

MV-RAG: 다중 시점 확산을 위한 검색 증강 기법

초록

텍스트-3D 생성 기법은 사전 학습된 2D 확산 사전 지식을 활용함으로써 고품질且 3D 일관성을 갖춘 출력을 생성하는 데 크게 발전해왔다. 그러나 이러한 기법은 도메인 외(OOD, out-of-domain) 또는 드문 개념을 생성할 때 자주 실패하며, 일관성 없는 또는 정확하지 않은 결과를 초래한다. 이를 해결하기 위해 본 연구에서는 새로운 텍스트-3D 파이프라인인 MV-RAG를 제안한다. 이 방법은 먼저 대규모 자연 환경 2D 데이터베이스에서 관련 2D 이미지를 검색한 후, 이를 기반으로 다중 시점 확산 모델을 조건화하여 일관성 있고 정확한 다중 시점 출력을 합성한다. 이러한 검색 조건부 모델의 학습은 구조화된 다중 시점 데이터와 다양한 2D 이미지 컬렉션을 연결하는 혁신적인 하이브리드 전략을 통해 수행된다. 구체적으로, 시점별 재구성에 대한 검색 변동성을 시뮬레이션하는 증강된 조건 시점으로 다중 시점 데이터를 기반으로 학습하는 동시에, 검색된 실제 세계 2D 이미지 집합을 사용하여 독특한 ‘보류된 시점 예측’ 목적함수를 적용하여 학습한다. 이 목적함수는 다른 시점들로부터 보류된 시점을 예측함으로써 2D 데이터에서 3D 일관성을 추론하도록 모델을 학습시킨다. 더 엄격한 OOD 평가를 가능하게 하기 위해, 본 연구는 도전적인 OOD 프롬프트를 포함하는 새로운 데이터셋을 제안한다. 최신 텍스트-3D, 이미지-3D, 개인화 기반 모델들과의 실험 결과, 제안하는 방법은 표준 벤치마크에서 경쟁적인 성능을 유지하면서도, OOD 또는 드문 개념에 대해 3D 일관성, 사진적 사실성, 텍스트 일치도 측면에서 크게 개선된 성능을 보였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp