3ヶ月前
ゼロショットモデルのロバストなファインチューニング
Mitchell Wortsman, Gabriel Ilharco, Jong Wook Kim, Mike Li, Simon Kornblith, Rebecca Roelofs, Raphael Gontijo-Lopes, Hannaneh Hajishirzi, Ali Farhadi, Hongseok Namkoong, Ludwig Schmidt

要約
CLIPやALIGNなどの大規模事前学習モデルは、特定のデータセットに対して微調整(fine-tuning)を行わずにゼロショット推論(zero-shot inference)を実行する際、さまざまなデータ分布にわたり一貫した精度を発揮する。既存の微調整手法は、特定のターゲット分布における精度を著しく向上させる一方で、分布シフト(distribution shift)に対するロバスト性を低下させる傾向がある。本研究では、微調整中にロバスト性を向上させるシンプルかつ効果的な手法を提案する。すなわち、ゼロショットモデルと微調整済みモデルの重みをアンサンブルする手法(WiSE-FT)を導入する。標準的な微調整と比較して、WiSE-FTは分布シフト下でも大幅な精度向上を実現しつつ、ターゲット分布上の高精度を維持する。ImageNetおよびその派生する5種類の分布シフトにおいて、WiSE-FTは過去の手法よりも分布シフト下での精度を4~6百分ポイント(pp)向上させるとともに、ImageNet上の精度も1.6 pp向上した。さらに、6種類の異なる分布シフトに対して同様に大きなロバスト性向上(2~23 pp)を達成し、7つの一般的に用いられる転移学習データセットにおいて、標準的な微調整と比較して0.8~3.3 ppの精度向上を実現した。これらの改善は、微調整および推論時に追加の計算コストを要しない点が特徴である。