Command Palette

Search for a command to run...

21일 전

UniLumos: 물리학적으로 타당한 피드백을 통한 빠르고 통합적인 이미지 및 비디오 재조명

Ropeway Liu Hangjie Yuan Bo Dong Jiazheng Xing Jinwang Wang Rui Zhao Yan Xing Weihua Chen Fan Wang

UniLumos: 물리학적으로 타당한 피드백을 통한 빠르고 통합적인 이미지 및 비디오 재조명

초록

재조명(relighting)은 실용적 수요와 예술적 가치를 모두 지닌 핵심 과제이며, 최근의 확산 모델은 풍부하고 제어 가능한 조명 효과를 가능하게 하여 큰 잠재력을 보여주고 있다. 그러나 이러한 모델들은 일반적으로 의미적 잠재 공간(semantic latent space)에서 최적화되기 때문에, 시각적 공간에서의 물리적 정확성과는 거리가 멀 수 있으며, 과도한 하이라이트, 잘못된 그림자 위치, 부정확한 음영 겹침 등과 같은 비현실적인 결과를 자주 생성한다. 이를 해결하기 위해 우리는 이미지와 동영상 모두에 적용 가능한 통합 재조명 프레임워크인 UniLumos를 제안한다. 이 프레임워크는 흐름 매칭(flow matching) 기반의 핵심 구조에 RGB 공간의 기하학적 피드백을 통합함으로써, 조명 효과를 장면의 구조와 명시적으로 일치시킨다. 구체적으로, 모델의 출력에서 추출한 깊이 맵(depth map)과 법선 맵(normal map)을 활용해 학습을 감독함으로써, 조명 효과가 장면의 물리적 구조와 일치하도록 유도한다. 이로 인해 조명의 물리적 타당성이 크게 향상된다. 그러나 이러한 피드백은 시각적 공간에서의 정밀한 출력을 요구하므로, 기존의 다단계 소음 제거(multi-step denoising) 기법은 계산 비용이 매우 높은 문제가 있다. 이를 완화하기 위해 우리는 경로 일관성 학습(path consistency learning)을 도입하여, 단순한 단계 수에서도 효과적인 학습이 가능하도록 했다. 더 나아가, 세밀한 재조명 제어와 감독을 가능하게 하기 위해, 핵심 조명 특성(illumination attributes)을 포괄하는 6차원 구조적(annotation) 프로토콜을 설계하였다. 이 기반 위에서, 우리는 조명 제어성의 정밀도를 대규모 비전-언어 모델(vision-language models)을 통해 자동으로 평가할 수 있는, 분리된(attribute-level) 벤치마크인 LumosBench를 제안한다. 이는 각각의 조명 특성 차원에 대해 재조명 정확도를 해석 가능한 방식으로 평가할 수 있도록 한다. 광범위한 실험을 통해 UniLumos가 기존의 최고 수준의 재조명 품질을 달성하면서도 물리적 일관성은 크게 향상되었으며, 이미지 및 동영상 재조명의 처리 속도는 20배 가까이 향상됨을 입증하였다. 코드는 https://github.com/alibaba-damo-academy/Lumos-Custom 에서 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
UniLumos: 물리학적으로 타당한 피드백을 통한 빠르고 통합적인 이미지 및 비디오 재조명 | 연구 논문 | HyperAI초신경