
摘要
本报告作为TaskPrompter的补充文档,详细介绍了其在基于Cityscapes-3D数据集构建的新一代2D-3D联合多任务学习基准上的实现。TaskPrompter提出了一种创新的多任务提示框架,统一建模(i)任务通用表征、(ii)任务特定表征以及(iii)跨任务交互关系,突破了以往方法将这些学习目标分离至不同网络模块的局限。该统一框架不仅显著降低了对精细经验性网络结构设计的依赖,还大幅提升了多任务网络的表征学习能力,因为整个模型容量得以同时优化上述三项核心目标。此外,TaskPrompter引入了一个基于Cityscapes-3D数据集的新型多任务基准,要求多任务模型能够同步完成单目3D车辆检测、语义分割以及单目深度估计的预测任务。这些任务对于实现视觉场景的联合2D-3D理解至关重要,尤其在自动驾驶系统的发展中具有关键意义。在该具有挑战性的基准上,我们的多任务模型在性能上显著优于现有的单任务最先进方法,并在极具挑战性的3D目标检测与深度估计任务上取得了新的最先进(SOTA)结果。