
摘要
密集预测任务在计算机视觉中具有重要意义,旨在为输入图像学习像素级标注标签。尽管该领域取得了进展,但现有方法主要集中在理想化条件下,对现实世界场景的泛化能力有限,并且面临现实世界数据稀缺的挑战。为了系统地研究这一问题,我们首先引入了DenseWorld基准测试,涵盖了25个与紧迫的现实世界应用相对应的密集预测任务,并实现了跨任务的统一评估。接着,我们提出了DenseDiT,该方法通过统一策略最大限度地利用生成模型的视觉先验来执行多样化的现实世界密集预测任务。DenseDiT结合了参数重用机制和两个轻量级分支,能够自适应地整合多尺度上下文,仅需增加不到0.1%的额外参数。在DenseWorld上的评估显示,现有的通用和专用基线方法在性能上出现了显著下降,突显了它们在现实世界中的泛化能力有限。相比之下,DenseDiT使用不到基线方法训练数据量的0.01%,就取得了优异的结果,强调了其在现实世界部署中的实际价值。我们的数据、检查点和代码可在https://xcltql666.github.io/DenseDiTProj 获取。