Tina: LoRA を用いた超小型言語モデルで強力な推論性能を実現 - 9ドルのコストで最高20%の向上を達成
TinA: コスト効率最高の言語モデルによる強力な推論 コスト効率の高い言語モデルに強大な推論能力を実装する最良の方法は何でしょうか?この問いに答えるため、私たちは TinA(Tiny Reasoning Models via LoRA)を提案しました。TinA は、極めて少ないリソースを使用しながら、推論性能を大幅に向上させる可能性を示しています。 具体的には、1.5B パラメータの小型ベースモデルに Low-Rank Adaptation(LoRA)技術を適用し、強化学習(RL)におけるパラメータ効率の高い更新を可能にしました。このシンプルなアプローチにより、生成されたモデルは既存の最先端(SOTA)推論モデルと同等、またはそれ以上の性能を発揮し、そのコンピュータコストは SOTA の一小部分にすぎません。 特に、最高峰の TinA モデルは AIME24 データセットにおいて 20% を超える推論性能の向上を達成し、Pass@1 精度は 43.33% となりました。後訓練と評価の総コストはわずか 9 ドルで、コストが約 260 倍削減されました。この成果は、LoRA を用いて高効率の RL 推論を実現できる可能性を示唆しており、複数のオープンソース推論データセットとさまざまな削減実験を通じて検証されています。すべての実験は、同じ固定超パラメータから始まっています。 また、LoRA の高効率と有効性の一因は、RL の報酬によって推論構造形式に迅速に適応しながら、ベースモデルの基本的な知識を大きく維持できる点にあると考えられます。オープンリサーチとアクセス性を促進するため、私たちのコード、トレーニングログ、モデルの重みとチェックポイントを完全にオープンソース化しました。
