多模态对比学习与联合示例选择 (Multimodal Contrastive Learning with Joint Example Selection,简称 JEST) 是 DeepMind 研究团队于 2024 年提出的一种新算法,相关论文成果为「Data curation via joint example selection further accelerates multimodal learning」。 JEST 旨在解决大语言模型(如 ChatGPT)训练过程中的高能耗问题。 JEST 算法通过从大规模的「超级 batch」中筛选出高质量的子 batch 进行训练,显著减少了所需的计算资源和时间。
JEST 算法的核心思想是利用多模态对比学习和联合示例选择来提高训练效率。它首先评估整个子 batch 的可学习性,然后根据评分进行采样,选择出与学习最相关的子 batch 进行训练。这种方法不仅提高了训练效率,还加快了多模态学习的速度。在使用 50% 、 80% 和 90% 的过滤比例时,分别只需 20 亿、 10 亿和 6.7 亿训练样本就达到了 30 亿均匀基准的最终性能。
此外,JEST 算法还考虑了多分辨率训练和在线 batch 选择之间的协同效应,进一步降低了计算成本。