11 天前

自监督学习的矩阵信息论

Yifan Zhang, Zhiquan Tan, Jingqin Yang, Weiran Huang, Yang Yuan
自监督学习的矩阵信息论
摘要

最大熵编码框架为多种非对比学习方法(如SimSiam、Barlow Twins和MEC)提供了一个统一的视角。受该框架的启发,我们提出了一种新方法——Matrix-SSL,该方法基于矩阵信息论,将最大熵编码损失重新诠释为矩阵均匀性损失。此外,Matrix-SSL通过无缝引入矩阵对齐损失,进一步增强了最大熵编码方法,实现了不同分支间协方差矩阵的直接对齐。实验结果表明,在线性评估设置下,Matrix-SSL在ImageNet数据集上的表现优于当前最先进的方法;在MS-COCO数据集上的迁移学习任务中也取得了显著提升。具体而言,在MS-COCO上进行迁移学习时,我们的方法仅需400个训练周期,便在性能上超越此前的SOTA方法(如MoCo v2和BYOL)达3.3%,而后者通常需800个训练周期。此外,我们尝试将表示学习引入语言建模领域,通过使用矩阵交叉熵损失对一个70亿参数的模型进行微调,在GSM8K数据集上的表现相较标准交叉熵损失提升了3.1%。代码已开源,地址为:https://github.com/yifanzhang-pro/Matrix-SSL。

自监督学习的矩阵信息论 | 最新论文 | HyperAI超神经