HyperAIHyperAI

Command Palette

Search for a command to run...

大型预训练图像模型能否提取通用表示?

Yutong Lin Ze Liu Zheng Zhang Han Hu Nanning Zheng Stephen Lin Yue Cao

摘要

冻结预训练模型已成为迁移学习中预训练然后微调范式的一种可行替代方案。然而,对于冻结模型而言,可用于适应下游任务的参数相对较少,这在计算机视觉领域尤为成问题,因为该领域的任务在输入/输出格式和有价值的信息类型方面差异显著。本文中,我们对冻结预训练模型应用于多样性和代表性计算机视觉任务(包括目标检测、语义分割和视频动作识别)进行了研究。通过这一实证分析,我们的工作回答了以下几个问题:哪种预训练任务最适合这种冻结设置,如何使冻结设置更加灵活以适应各种下游任务,以及更大模型尺寸的影响。此外,我们还使用了一个拥有30亿参数的大型冻结预训练模型(SwinV2-G)来考察其性能上限,并发现仅使用一个共享的冻结基础网络时,该模型在多个主要基准测试上达到了具有竞争力的性能:COCO目标检测test-dev集上的框mAP为60.0,掩码mAP为52.2;ADE20K语义分割验证集上的mIoU为57.6;Kinetics-400动作识别测试集上的Top-1准确率为81.7。通过这项工作,我们希望引起更多人对该路径的关注,即冻结预训练图像模型的潜在优势。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供