モデルスープ:複数のファインチューニング済みモデルの重みを平均化することで、推論時間の増加を伴わずに精度が向上する

大規模な事前学習モデルの微調整(fine-tuning)を念頭に置き、従来のモデル精度最大化のアプローチである(1)複数のハイパーパラメータ設定でモデルを訓練し、(2)保留した検証セット上で最も性能の高い個別モデルを選択して残りを破棄するという手順の第二段階を見直す。本論文では、微調整されたモデルがしばしば単一の低誤差盆地(low error basin)に位置するという現象を踏まえ、異なるハイパーパラメータ設定で微調整された複数モデルの重みを平均化することで、精度とロバスト性の向上が可能であることを示す。従来のアンサンブル手法とは異なり、この重み平均化は追加の推論コストやメモリ消費を伴わないため、多数のモデルを平均化しても問題ない。このような手法の結果を「モデル・スープ(model soups)」と呼ぶ。CLIP、ALIGN、およびJFTデータセットで事前学習されたViT-Gなどの大規模事前学習モデルに対して微調整を行う際、本手法はハイパーパラメータスイープにおける最良モデルを大きく上回る性能を達成した。特に、ImageNet上でトップ-1精度90.94%を達成したViT-Gモデルは、新たなSOTA(State-of-the-Art)を樹立した。さらに、モデルスープアプローチが複数の画像分類および自然言語処理タスクに拡張可能であり、分布外(out-of-distribution)性能や新しい下流タスクにおけるゼロショット性能の向上にも寄与することを示した。最後に、重み平均化とロジットアンサンブル(logit-ensembling)の性能類似性が、損失関数の平坦性(flatness)および予測の信頼度と関係していることを解析的に示し、実験的にその関係を検証した。コードは以下のURLで公開されている:https://github.com/mlfoundations/model-soups。