Command Palette
Search for a command to run...
Ammar Khairi Daniel Dsouza Ye Shen Julia Kreutzer Sara Hooker

要約
最近の大規模言語モデル(Large Language Models: LLMs)の進歩により、モデルの再学習を必要とせずに性能を向上させるために推論時の計算リソースのスケーリングに焦点が当てられるようになりました。一般的なアプローチは、複数の出力を並列にサンプリングし、その中から最終的な出力を選択することです。しかし、これまでの研究は主に英語と数学やコードなどの特定の分野に集中していました。対照的に、我々はオープンエンドタスク、形式的に検証可能なタスク、そして多言語環境において汎用性のある手法に最も興味を持っています。本研究では、多言語・多タスク設定におけるオープンエンド生成タスクの推論時計算リソースを堅牢にスケーリングする方法について調査しました。我々の結果は、温度変動に基づくサンプリング戦略と選択戦略が異なる分野や言語設定に対応するために適応する必要があることを示しています。既存の選択方法を評価した結果、英語で効果的な戦略が他の言語には必ずしも汎用しないことが明らかになりました。そこで、多言語および多タスク推論シナリオに特化した新しいサンプリングと選択戦略を提案し、これらの手法が言語やタスクを超えて顕著な改善をもたらすことを示しました。特に、我々の組み合わせたサンプリングと選択方法は、m-ArenaHard-v2.0 プロンプトで 8B モデルに対して平均 +6.8 の勝率向上を達成しました(Gemini などの独自モデルとの比較)。大規模なモデルである Command-A (111B モデル) でも、単一サンプル解码よりもわずか5つのサンプルを使用することで +9.0 の勝率向上を達成し、最小限のコストで大幅な改善が見られました。これらの結果は、推論時の計算リソースに対する言語およびタスク認識型アプローチの必要性を強調しており、未代表言語での性能向上を民主化することを目指しています。注:「解码」は「デコーディング」(decoding)の方が一般的です。修正版如下:特に、我々の組み合わせたサンプリングと選択方法は、m-ArenaHard-v2.0 プロンプトで 8B モデルに対して平均 +6.8 の勝率向上を達成しました(Gemini などの独自モデルとの比較)。大規模なモデルである Command-A (111B モデル) でも、単一サンプルデコーディングよりもわずか5つのサンプルを使用することで +9.0 の勝率向上を達成し、最小限のコストで大幅な改善が見られました。