摘要

学习到的表征是现代机器学习系统中的核心组成部分，广泛应用于各类下游任务。在训练这些表征时，往往难以准确预知每个下游任务所面临的计算与统计约束。在此背景下，采用固定容量的刚性表征可能无法充分适应具体任务需求，导致表征容量过度或不足，从而影响性能。这引出了一个关键问题：我们能否设计一种灵活的表征机制，使其能够根据不同的计算资源动态适应多种下游任务？本文的主要贡献是提出套娃式表征学习（Matryoshka Representation Learning, MRL），该方法通过在不同粒度层次上编码信息，使单一嵌入向量能够自适应地匹配下游任务的计算约束。MRL 对现有的表征学习流程改动极小，且在推理与部署阶段不引入额外开销。MRL 学习的是从粗到细的多层次表征，其表达能力至少与独立训练的低维表征相当，甚至更优。所学习的套娃式表征具有以下优势：(a) 在保持 ImageNet-1K 分类任务相同准确率的前提下，嵌入向量大小可缩小至原来的 1/14；(b) 在 ImageNet-1K 和 ImageNet-4K 的大规模检索任务中，实现高达 14 倍的实际运行速度提升；(c) 在长尾少样本分类任务中，准确率最高提升 2%，同时保持与原始表征相当的鲁棒性。此外，我们进一步验证了 MRL 可无缝扩展至大规模网络级数据集（如 ImageNet、JFT），适用于多种模态与模型架构——包括视觉模型（ViT、ResNet）、视觉-语言联合模型（ALIGN）以及纯语言模型（BERT）。MRL 的代码与预训练模型已开源，欢迎访问：https://github.com/RAIVNLab/MRL。

源 PDF