
摘要
现有的目标检测中的领域适应(Domain Adaptation, DA)和领域泛化(Domain Generalization, DG)方法主要在视觉空间中强制特征对齐,但面临着诸如物体外观变化和场景复杂性等挑战,这些挑战使得区分物体并实现准确检测变得困难。本文首次探讨了通过视觉-语言预训练并在语言空间中强制特征对齐来解决半监督领域泛化问题的方法。我们提出了一种新颖的跨域描述多尺度学习(Cross-Domain Descriptive Multi-Scale Learning, CDDMSL),旨在最大化具有不同领域特定特征的图像描述在嵌入空间中的一致性。实验结果表明,CDDMSL 在 DG 和 DA 设置下分别显著优于现有方法,提升了 11.7% 和 7.5% 的性能。全面的分析和消融研究进一步验证了我们方法的有效性,使 CDDMSL 成为目标检测任务中领域泛化的一个有前景的方法。