2ヶ月前

LLMコミュニティの天井を打破するためのトークン生成の分類化によるアンサンブル手法

Yao-Ching Yu; Chun-Chih Kuo; Ziqi Ye; Yu-Cheng Chang; Yueh-Se Li
LLMコミュニティの天井を打破するためのトークン生成の分類化によるアンサンブル手法
要約

複数のモデルをアンサンブルすることは、既存の性能の限界を押し広げる効果的な手法であり、分類タスクにおいては複数の分類器から得られる分類確率ベクトルを単純に平均化することでより高い精度を達成するために広く利用されています。しかし、オープンソースの大規模言語モデル(LLM)コミュニティでは、アンサンブル手法が希少であり、通常はランカーを使用して最良の出力を選択するなど、LLMの全文出力をアンサンブルすることに限定され、トークンレベルの確率情報が十分に活用されていないという問題があります。本論文では、大規模言語モデルによる各トークンの生成を分類(GaC: Generation as Classification)として扱い、これをアンサンブルする手法を提案します。このアプローチは生成ステップごとの確率情報を完全に活用し、LLMが初期段階で誤ったトークンを生成することによる雪だるま式エラーをより効果的に防止することができます。実験では、最新の大規模言語モデルをいくつかのベンチマーク(試験、数学および推論など)でアンサンブルし、当手法が既存のコミュニティ性能上限を超えることを確認しました。さらに、回答内の大多数のトークンは単純であり最終的な回答の正しさに影響を与えないことから、重要なトークンのみをアンサンブルする実験も行いました。その結果、各ベンチマークにおいて低遅延でより良い性能が示されました。