Command Palette
Search for a command to run...
JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

초록
사전에 학습된 텍스트-이미지(T2I) 생성 모델로부터 얻은 시각적 사전 지식은 밀도 높은 예측(dense prediction) 작업에서 성공적인 성과를 거두었다. 그러나 밀도 높은 예측은 본질적으로 이미지에서 이미지로의 변환 작업이므로, 생성 모델보다는 이미지 편집 모델이 미세 조정(fine-tuning)을 위한 더 적합한 기반으로 여겨질 수 있다. 이러한 관점에서, 우리는 밀도 높은 기하 구조 추정을 위한 편집 모델과 생성 모델의 미세 조정 행동을 체계적으로 분석하였다. 분석 결과, 편집 모델은 고유한 구조적 사전 지식을 내재하고 있으며, 이는 자체 특징을 ‘정밀하게 보정(refining)’함으로써 더 안정적인 수렴을 가능하게 하며, 결국 생성 모델 대비 더 높은 성능을 달성함을 확인하였다. 이러한 발견을 바탕으로, 우리는 Diffusion Transformer(DiT) 아키텍처를 기반으로 한 고급 이미지 편집 모델을 밀도 높은 기하 구조 예측에 처음으로 적용하는 FE2E 프레임워크를 제안한다. 구체적으로, 편집 모델을 결정론적(deterministic) 작업에 맞게 조정하기 위해, 기존의 흐름 매칭(loss)을 ‘일관된 속도(consistent velocity)’ 학습 목표로 재정의하였다. 또한, 편집 모델의 기본 BFloat16 형식과 본 연구 과제에서 요구하는 고정밀도 간의 정밀도 충돌 문제를 해결하기 위해 로그 양자화(logarithmic quantization) 기법을 도입하였다. 또한, DiT의 전역 주의(global attention) 메커니즘을 활용하여 단일 전방 계산(forward pass) 내에서 깊이(depth)와 법선(normal)을 비용 없이 동시에 추정할 수 있도록 하였으며, 이로 인해 두 출력에 대한 감독 신호가 서로 보완적으로 작용하여 성능 향상을 이끌어냈다. 학습 데이터 규모를 증가시키지 않음에도 불구하고, FE2E는 다양한 데이터셋에서 단일 이미지 기반의 제로샷(zero-shot) 깊이 및 법선 추정 작업에서 놀라운 성능 향상을 달성하였다. 특히 ETH3D 데이터셋에서 35% 이상의 성능 향상을 기록하며, 100배 많은 데이터로 학습된 DepthAnything 시리즈를도 초월하였다. 프로젝트 페이지는 다음 링크에서 확인할 수 있다: https://amap-ml.github.io/FE2E/