Command Palette

Search for a command to run...

2달 전

LuxDiT: 비디오 디퓨전 트랜스포머를 활용한 조명 추정

Ruofan Liang Kai He Zan Gojcic Igor Gilitschenski Sanja Fidler Nandita Vijaykumar Zian Wang

LuxDiT: 비디오 디퓨전 트랜스포머를 활용한 조명 추정

초록

단일 이미지 또는 영상에서 장면 조명을 추정하는 것은 컴퓨터 비전 및 그래픽스 분야에서 오랫동안 해결되지 않은 과제이다. 기존의 학습 기반 접근법은 고해상도 환경 맵(HDR environment maps)의 지표(ground-truth) 데이터 부족으로 인해 제한을 받고 있으며, 이러한 데이터는 캡처 비용이 높고 다양성이 제한적이다. 최근의 생성 모델들은 이미지 합성에 강력한 사전 지식(prior)을 제공하지만, 조명 추정은 간접적인 시각적 증거에 의존하고 전역(비국소적) 맥락을 추론해야 하며, 고역동 범위(high-dynamic-range, HDR) 출력을 복원해야 하는 등의 이유로 여전히 어려움을 겪고 있다. 본 연구에서는 영상 확산 변환기(video diffusion transformer)를 조정하여 시각 입력에 조건부로 HDR 환경 맵을 생성하는 새로운 데이터 기반 접근법인 LuxDiT를 제안한다. 다양한 조명 조건을 포함한 대규모 합성 데이터셋으로 학습된 본 모델은 간접적인 시각적 증거를 바탕으로 조명을 추론하며, 실제 장면에 효과적으로 일반화할 수 있다. 입력과 예측된 환경 맵 간의 의미적 일치도를 향상시키기 위해, 수집한 HDR 패노라마 데이터셋을 활용한 낮은 랭크 적응(fine-tuning) 전략을 도입하였다. 제안한 방법은 정량적 및 정성적 평가 모두에서 기존 최고 수준의 기술들을 능가하며, 현실적인 각도별 고주파 세부 정보를 갖춘 정확한 조명 예측을 가능하게 한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
LuxDiT: 비디오 디퓨전 트랜스포머를 활용한 조명 추정 | 연구 논문 | HyperAI초신경