16日前

自己教師あり学習モデルのバッチ正規化微調整による転移性の向上

{Álvaro García-Martín, Pablo Carballeira, Marcos Escudero-Viñolo, Kirill Sirotkin}
要約

ラベルなしデータの豊富さと自己教師学習(Self-Supervised Learning, SSL)の進展により、多くの転移学習の場面でSSLが最も好まれる選択肢となっている。SSL手法の急速かつ継続的な発展に伴い、特定のタスクやドメイン向けに訓練された膨大なモデルが存在するようになり、新たなタスクやドメインにおける転移性能を推定するための手法の必要性が高まっている。通常、このような推定器として用いられるのは、固定された特徴抽出器の上に線形分類器を訓練する「線形プローブ(linear probing)」である。本研究では、線形プローブの限界に着目する。すなわち、線形プローブはエンドツーエンドでの微調整(end-to-end finetuning)を最終目的とする転移学習において、モデルの性能と強く相関していないこと、場合によってはモデルの潜在的な性能を著しく誤って評価してしまう点である。本研究では、バッチ正規化(batch normalization)層を固定解除し、分類ヘッドと同時に共同微調整することで、はるかに優れた代理タスク(proxy task)を得る手法を提案する。ResNet-50を例にすると、モデルパラメータのわずか0.16%の追加学習コストで、本手法は以下の3点で優れた成果を上げる:(i)エンドツーエンド微調整性能との相関がより強くなる;(ii)多数ラベル・少数ラベル学習の両方の状況において、線形プローブの性能を向上させる;(iii)一部のケースでは、線形プローブおよびエンドツーエンド微調整を上回り、病理画像データセットにおいて最先端の性能を達成する。最後に、バッチ正規化の学習が特徴分布に引き起こす変化について分析・考察し、性能向上の要因となる可能性を検討する。本研究のコードは、https://github.com/vpulab/bn_finetuning にて公開されている。

自己教師あり学習モデルのバッチ正規化微調整による転移性の向上 | 最新論文 | HyperAI超神経