
要約
大規模言語モデル(LLM)は、多様な分野において顕著な能力を示しているが、その学習プロセスはリソースおよび時間の消費が大きく、膨大な計算能力と細やかな学習手順の調整を必要とする。同じアーキテクチャを持つ複数のモデルの重みを平均する「モデルスープ(model souping)」という手法は、再学習にかかるコストが高くなることなく性能を向上させる有望な前処理および後処理技術として注目されている。本論文では、ベンチマークの構成を活用して最適なモデル候補を特定し、非一様な重み付き平均を適用することで性能を最大化する、理論的根拠に基づいたモデルスープ手法「カテゴリ専門家スープ(SoCE: Soup Of Category Experts)」を提案する。従来の均一な重み平均手法とは異なり、本手法は、ベンチマークのカテゴリ間でモデルの性能がしばしば低相関を示すという観察に基づいている。SoCEは、相関が低いカテゴリクラスタごとに「専門家モデル(expert models)」を特定し、均一な重みではなく最適化された重み付き平均によってそれらを統合する。実験により、多言語対応、ツール呼び出し、数学推論など複数の分野において、提案手法が性能およびロバスト性の向上を実現できることを示し、バークレー関数呼び出しリーダーボードにおいて最先端の成果を達成した。