6 个月前

计算机视觉

计算机视觉

Yifan Zhang Zhiquan Tan Jingqin Yang Weiran Huang Yang Yuan

摘要

最大熵编码框架为多种非对比学习方法（如SimSiam、Barlow Twins和MEC）提供了一个统一的视角。受该框架的启发，我们提出了一种新方法——Matrix-SSL，该方法基于矩阵信息论，将最大熵编码损失重新诠释为矩阵均匀性损失。此外，Matrix-SSL通过无缝引入矩阵对齐损失，进一步增强了最大熵编码方法，实现了不同分支间协方差矩阵的直接对齐。实验结果表明，在线性评估设置下，Matrix-SSL在ImageNet数据集上的表现优于当前最先进的方法；在MS-COCO数据集上的迁移学习任务中也取得了显著提升。具体而言，在MS-COCO上进行迁移学习时，我们的方法仅需400个训练周期，便在性能上超越此前的SOTA方法（如MoCo v2和BYOL）达3.3%，而后者通常需800个训练周期。此外，我们尝试将表示学习引入语言建模领域，通过使用矩阵交叉熵损失对一个70亿参数的模型进行微调，在GSM8K数据集上的表现相较标准交叉熵损失提升了3.1%。代码已开源，地址为：https://github.com/yifanzhang-pro/Matrix-SSL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Yifan Zhang Zhiquan Tan Jingqin Yang Weiran Huang Yang Yuan

摘要

最大熵编码框架为多种非对比学习方法（如SimSiam、Barlow Twins和MEC）提供了一个统一的视角。受该框架的启发，我们提出了一种新方法——Matrix-SSL，该方法基于矩阵信息论，将最大熵编码损失重新诠释为矩阵均匀性损失。此外，Matrix-SSL通过无缝引入矩阵对齐损失，进一步增强了最大熵编码方法，实现了不同分支间协方差矩阵的直接对齐。实验结果表明，在线性评估设置下，Matrix-SSL在ImageNet数据集上的表现优于当前最先进的方法；在MS-COCO数据集上的迁移学习任务中也取得了显著提升。具体而言，在MS-COCO上进行迁移学习时，我们的方法仅需400个训练周期，便在性能上超越此前的SOTA方法（如MoCo v2和BYOL）达3.3%，而后者通常需800个训练周期。此外，我们尝试将表示学习引入语言建模领域，通过使用矩阵交叉熵损失对一个70亿参数的模型进行微调，在GSM8K数据集上的表现相较标准交叉熵损失提升了3.1%。代码已开源，地址为：https://github.com/yifanzhang-pro/Matrix-SSL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供