8 个月前

自然语言处理

Zhang Li Wang

摘要

半监督学习（SSL）在伪标签自训练框架的各种改进下取得了显著进展。主要挑战在于如何区分高质量的伪标签以对抗确认偏差。然而，现有的伪标签选择策略要么局限于预定义的方案，要么是为分类任务特别设计的复杂手工策略，难以同时实现高质量标签、快速收敛和任务多样性。为此，我们提出了一种半监督奖励框架（SemiReward），该框架通过预测奖励分数来评估并筛选出高质量的伪标签，可以广泛应用于主流的SSL方法中的多种任务类型和场景。为了缓解确认偏差，SemiReward 在线分两个阶段进行训练，采用生成模型和子采样策略。通过对三个模态上的13个标准SSL基准数据集进行分类和回归任务的大量实验验证，结果表明 SemiReward 在 Pseudo Label、FlexMatch 和 Free/SoftMatch 的基础上显著提升了性能并加快了收敛速度。代码和模型可在 https://github.com/Westlake-AI/SemiReward 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

Zhang Li Wang

摘要

半监督学习（SSL）在伪标签自训练框架的各种改进下取得了显著进展。主要挑战在于如何区分高质量的伪标签以对抗确认偏差。然而，现有的伪标签选择策略要么局限于预定义的方案，要么是为分类任务特别设计的复杂手工策略，难以同时实现高质量标签、快速收敛和任务多样性。为此，我们提出了一种半监督奖励框架（SemiReward），该框架通过预测奖励分数来评估并筛选出高质量的伪标签，可以广泛应用于主流的SSL方法中的多种任务类型和场景。为了缓解确认偏差，SemiReward 在线分两个阶段进行训练，采用生成模型和子采样策略。通过对三个模态上的13个标准SSL基准数据集进行分类和回归任务的大量实验验证，结果表明 SemiReward 在 Pseudo Label、FlexMatch 和 Free/SoftMatch 的基础上显著提升了性能并加快了收敛速度。代码和模型可在 https://github.com/Westlake-AI/SemiReward 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供