2 个月前

零样本迁移学习的联合缩放方法

Hieu Pham; Zihang Dai; Golnaz Ghiasi; Kenji Kawaguchi; Hanxiao Liu; Adams Wei Yu; Jiahui Yu; Yi-Ting Chen; Minh-Thang Luong; Yonghui Wu; Mingxing Tan; Quoc V. Le
零样本迁移学习的联合缩放方法
摘要

我们提出了一种名为BASIC的组合缩放方法,在不使用任何带有标签的ImageNet示例的情况下,该方法在ImageNet ILSVRC-2012验证集上达到了85.7%的Top-1准确率。这一准确率比已发表的最佳类似模型CLIP和ALIGN高出9.3%。我们的BASIC模型在鲁棒性基准测试中也表现出显著的改进。例如,在包含自然分布偏移的5个测试集(如ImageNet-{A,R,V2,Sketch}和ObjectNet)上,我们的模型实现了84.3%的Top-1平均准确率,仅比其原始ImageNet准确率略有下降。为了达到这些结果,我们在三个维度上扩展了CLIP和ALIGN的对比学习框架:数据规模、模型规模和批量大小。我们的数据集包含66亿对噪声图像-文本对,这比ALIGN大4倍,比CLIP大16倍。我们最大的模型拥有30亿个参数,这比ALIGN和CLIP的参数量大3.75倍,计算量(FLOPs)大8倍。最后,我们的批量大小为65536,这比CLIP多2倍,比ALIGN多4倍。在实现BASIC的组合缩放规则时,我们遇到了两个主要挑战。首先,实施BASIC组合缩放规则的主要挑战在于加速器(如GPU和TPU)的有限内存。为克服内存限制,我们提出了两种简单的方法:利用梯度检查点技术和模型并行化技术。其次,尽管增加数据集规模和模型规模已成为提高深度学习模型(如BASIC)性能的事实上的方法,但大规模对比批量对这种对比训练的图像-文本模型的影响尚未完全理解。为了阐明大规模对比批量的好处,我们开发了一个理论框架,表明对于像BASIC这样的图像-文本模型而言,更大的对比批量可以导致更小的泛化差距。

零样本迁移学习的联合缩放方法 | 最新论文 | HyperAI超神经