Command Palette
Search for a command to run...
套娃式表示学习
套娃式表示学习
摘要
学习到的表征是现代机器学习系统中的核心组成部分,广泛应用于各类下游任务。在训练这些表征时,往往难以准确预知每个下游任务所面临的计算与统计约束。在此背景下,采用固定容量的刚性表征可能无法充分适应具体任务需求,导致表征容量过度或不足,从而影响性能。这引出了一个关键问题:我们能否设计一种灵活的表征机制,使其能够根据不同的计算资源动态适应多种下游任务?本文的主要贡献是提出套娃式表征学习(Matryoshka Representation Learning, MRL),该方法通过在不同粒度层次上编码信息,使单一嵌入向量能够自适应地匹配下游任务的计算约束。MRL 对现有的表征学习流程改动极小,且在推理与部署阶段不引入额外开销。MRL 学习的是从粗到细的多层次表征,其表达能力至少与独立训练的低维表征相当,甚至更优。所学习的套娃式表征具有以下优势:(a) 在保持 ImageNet-1K 分类任务相同准确率的前提下,嵌入向量大小可缩小至原来的 1/14;(b) 在 ImageNet-1K 和 ImageNet-4K 的大规模检索任务中,实现高达 14 倍的实际运行速度提升;(c) 在长尾少样本分类任务中,准确率最高提升 2%,同时保持与原始表征相当的鲁棒性。此外,我们进一步验证了 MRL 可无缝扩展至大规模网络级数据集(如 ImageNet、JFT),适用于多种模态与模型架构——包括视觉模型(ViT、ResNet)、视觉-语言联合模型(ALIGN)以及纯语言模型(BERT)。MRL 的代码与预训练模型已开源,欢迎访问:https://github.com/RAIVNLab/MRL。