Command Palette
Search for a command to run...
JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

摘要
利用预训练文本到图像(T2I)生成模型所蕴含的视觉先验,在密集预测任务中已取得显著成效。然而,密集预测本质上是一个图像到图像的任务,这表明图像编辑模型相较于T2I生成模型,可能更适合作为微调的基底模型。受此启发,我们系统地分析了编辑模型与生成模型在密集几何估计任务中的微调行为。研究发现,编辑模型具备固有的结构先验,能够通过“精炼”其内在特征实现更稳定的收敛,最终在性能上超越相应的生成模型。基于上述发现,我们提出FE2E框架,首次将基于扩散Transformer(Diffusion Transformer, DiT)架构的先进编辑模型应用于密集几何预测任务。具体而言,为使编辑模型更好地适应这一确定性任务,我们将原始的流匹配损失重新构造为“一致速度”训练目标;同时,采用对数量化方法,有效解决了编辑模型原生BFloat16格式与任务对高精度需求之间的精度冲突问题。此外,我们充分利用DiT架构中的全局注意力机制,在一次前向传播中实现深度与法向量的无成本联合估计,使两者的监督信号得以相互增强。在不扩大训练数据规模的前提下,FE2E在多个数据集上均实现了零样本单目深度与法向估计的显著性能提升。尤为突出的是,在ETH3D数据集上性能提升超过35%,并优于DepthAnything系列模型——后者是在100倍规模数据上训练的模型。项目主页可访问:https://amap-ml.github.io/FE2E/