2 个月前

大型预训练图像模型能否提取通用表示？

Lin, Yutong ; Liu, Ze ; Zhang, Zheng ; Hu, Han ; Zheng, Nanning ; Lin, Stephen ; Cao, Yue

摘要

冻结预训练模型已成为迁移学习中预训练然后微调范式的一种可行替代方案。然而，对于冻结模型而言，可用于适应下游任务的参数相对较少，这在计算机视觉领域尤为成问题，因为该领域的任务在输入/输出格式和有价值的信息类型方面差异显著。本文中，我们对冻结预训练模型应用于多样性和代表性计算机视觉任务（包括目标检测、语义分割和视频动作识别）进行了研究。通过这一实证分析，我们的工作回答了以下几个问题：哪种预训练任务最适合这种冻结设置，如何使冻结设置更加灵活以适应各种下游任务，以及更大模型尺寸的影响。此外，我们还使用了一个拥有30亿参数的大型冻结预训练模型（SwinV2-G）来考察其性能上限，并发现仅使用一个共享的冻结基础网络时，该模型在多个主要基准测试上达到了具有竞争力的性能：COCO目标检测test-dev集上的框mAP为60.0，掩码mAP为52.2；ADE20K语义分割验证集上的mIoU为57.6；Kinetics-400动作识别测试集上的Top-1准确率为81.7。通过这项工作，我们希望引起更多人对该路径的关注，即冻结预训练图像模型的潜在优势。