16 天前

面向大众的 ImageNet-21K 预训练

Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, Lihi Zelnik-Manor
面向大众的 ImageNet-21K 预训练
摘要

ImageNet-1K 是计算机视觉任务中深度学习模型预训练的主要数据集。相比之下,规模更大、类别更丰富的 ImageNet-21K 数据集在预训练中的应用却相对较少,主要原因在于其复杂性较高、获取难度大,且其潜在价值常被低估。本文旨在弥合这一差距,致力于使面向 ImageNet-21K 的高质量、高效率预训练方法对所有人开放。通过专门设计的预处理流程、对 WordNet 层次结构的有效利用,以及一种名为“语义 Softmax”(semantic softmax)的新型训练策略,我们证明了多种模型在众多数据集和任务上均能显著受益于 ImageNet-21K 的预训练,包括小型移动端模型。此外,我们在 ViT 和 Mixer 等前沿模型上的实验表明,所提出的方法优于以往的 ImageNet-21K 预训练方案。所提出的预训练流程高效、易于获取,并基于公开可访问的数据集,能够复现当前最先进的(SoTA)结果。相关训练代码与预训练模型已开源,地址为:https://github.com/Alibaba-MIIL/ImageNet21K

面向大众的 ImageNet-21K 预训练 | 最新论文 | HyperAI超神经