Command Palette
Search for a command to run...
Yifan Wang Binbin Liu Fengze Liu Yuanfan Guo Jiyao Deng Xuecheng Wu Weidong Zhou Xiaohuan Zhou Taifeng Wang

要約
言語モデルの事前学習に用いられるデータ混合は、最終的な性能において基盤的な役割を果たす。しかし、静的な混合戦略では最適ではなく、モデルが訓練の過程を通じて異なるデータドメインに対する学習の好みが動的に変化するためである。特に、計算効率の高い方法でこうした進化する好みを観測することは、依然として大きな課題である。これを解決するため、本研究では、モデルの進化する好みに応じてデータ混合を動的に調整する手法「TiKMiX」を提案する。TiKMiXは、データドメインがモデルに与える影響を効率的に評価するための指標「Group Influence」を導入している。この指標により、データ混合問題を「影響を最大化する最適な分布」を探索する問題として定式化できる。この問題に対して、2つのアプローチを採用する:直接最適化を実行するTiKMiX-Dと、回帰モデルを用いて優れた混合比を予測するTiKMiX-Mである。本研究では、最大1兆トークンまでを用いて、パラメータ数が異なる複数のモデルを訓練した。TiKMiX-Dは、REGMIXなどの最先端手法を上回る性能を達成しつつ、計算リソースのわずか20%で実現した。また、TiKMiX-Mは、9つの下流ベンチマークにおいて平均2%の性能向上をもたらした。実験の結果、モデルのデータに対する好みは訓練の進行度およびスケールに応じて変化することを明らかにし、Group Influence(こうした好みの直接的な指標)に基づいてデータ混合を動的に調整することで、静的比率によるデータの不十分な処理(underdigestion)を軽減し、性能の著しい向上が達成されることを示した。