中科院が提案する新データサンプリング戦略、自監督学習の未知データ適応力を向上させる
中国科学院の研究チームが小規模データサンプリング戦略を提案 最近、中国科学院ソフトウェア研究所の研究チームが、小規模データサンプリング戦略を提案しました。この戦略は、観測されない変数による偽の関連性を排除することで、自己教師学習モデルの分布外汎化能力を高めます。自己教師学習の分布外汎化能力とは、モデルが訓練データとは異なる分布を持つテストデータに対して良好な性能を維持できる能力を指します。 観測されない変数は、訓練中に学習課題とは無関係な意味的な干渉を引き換え、分布外汎化能力を弱めることがあります。この研究では、因果効果の推定などの手法を用いて、観測されない変数の意味的な干渉を削減する小規模データサンプリング戦略が開発されました。具体的には、隠れ変数モデルを学習し、「アンカーポイント」と呼ばれる特定のサンプルが与えられたときに、観測されない変数の事後確率分布を計算します。これをバランススコアと呼び、同じまたは近いバランススコアを持つサンプルを同じ小規模データバッチにまとめることで、各バッチ内の観測されない変数が「アンカーポイント」に対して条件付き独立となるようにします。 研究チームは、さまざまなベンチマークデータセットを用いて、このサンプリング戦略の効果を評価しました。実験では、モデルの構造やハイパラメータは変更せずに、バッチ生成メカニズムだけを置き換えることで、現在の主要な自己教師学習方法が様々な評価任務における性能を最低2%向上させました。ImageNet 100とImageNetの分類任務において、Top 1およびTop 5の精度が現行の最良方法(SOTA)を上回りました。また、半教師あり設定の分類任務では、Top 1とTop 5の精度がそれぞれ3%以上、2%以上向上しました。目標検出とインスタンス分割の転移学習任務でも、平均精度が安定して向上しました。さらに、少サンプル転移学習任務であるOmniglot、miniImageNet、CIFAR FSでは、性能が5%以上向上しました。 これらの実験結果から、提案されたサンプリング戦略は偽の関連性を弱め、因果学習を強化し、分布外汎化能力を大幅に向上させることが示されました。研究成果は、CCF-Aクラスの人工知能トップカンファレンス、International Conference on Machine Learning (ICML-25)で採択されました。詳細な論文へのリンクが公開されています。
