Command Palette
Search for a command to run...
SemiReward: 半教師あり学習のための一般的報酬モデル
SemiReward: 半教師あり学習のための一般的報酬モデル
Zhang Li Wang
概要
半教師あり学習(Semi-supervised Learning, SSL)は、疑似ラベリングを用いた自己訓練フレームワークの様々な改善により、大きな進歩を遂げています。主要な課題は、確認バイアスに対する高品質な疑似ラベルを区別することです。しかし、既存の疑似ラベル選択戦略は、事前に定義されたスキーマや分類専用に特別に設計された複雑な手作りポリシーに限定されており、高品質なラベル、高速収束、およびタスクの多様性を同時に達成することは困難です。これらの課題に対処するため、我々は疑似ラベルの評価とフィルタリングを行う報酬スコアを予測する半教師あり報酬フレームワーク(Semi-supervised Reward framework, SemiReward)を提案します。このフレームワークは、幅広いタスクタイプとシナリオにおける主流のSSL手法にプラグイン可能となっています。確認バイアスを軽減するために、SemiRewardはジェネレータモデルとサブサンプリング戦略を使用してオンラインで2段階で訓練されます。3つのモダリティにわたる13の標準的なSSLベンチマークでの分類および回帰タスクにおいて、広範囲な実験によってSemiRewardがPseudo Label, FlexMatch, およびFree/SoftMatchに対して有意な性能向上とより速い収束速度を達成することが確認されています。コードとモデルはhttps://github.com/Westlake-AI/SemiReward で利用可能です。