Model Ratatouille:多様なモデルの再利用による分布外一般化

基礎モデル(foundation models)は、AIシステムの構築方法を再定義しつつある。現在、実務家たちは標準的な手順に従って機械学習ソリューションを構築している:事前に学習された基礎モデルを用い、関心のあるタスクに合わせてモデルの重みを微調整(fine-tuning)する。その結果、インターネット上には多数の基礎モデルが、さまざまな多様なタスクに微調整された形で存在している。しかし、これらの微調整は互いに独立しており、相互に恩恵を及ぼすことはない。我々の見解では、これは大きな機会の損失である。なぜなら、こうした特化型モデルには豊富で多様な特徴が内包されているからである。本論文では、同一の基礎モデルが複数の補助タスクに微調整された結果得られた重みを再利用する新たな戦略「Model Ratatouille」を提案する。具体的には、これらの補助タスクでの微調整結果として得られた重みを、目的タスクにおける複数の並列な微調整の初期化値として再利用し、その後、すべての微調整後の重みを平均することで最終モデルを構成する。この再利用戦略は、補助タスクの多様性を活かして重みの多様性を最大化することを目指している。実証実験の結果、分布外一般化(out-of-distribution generalization)を評価する基準ベンチマーク「DomainBed」において、既存の最良手法を上回る性能を達成した。今後の展望として、本研究は、オープンソースソフトウェア開発のように、コミュニティが協力して機械学習モデルを信頼性高く更新し続けるという、新たなパラダイム「アップデート可能な機械学習」に貢献するものである。本研究のコードは公開されている:https://github.com/facebookresearch/ModelRatatouille。