Command Palette

Search for a command to run...

2ヶ月前

TiKMiX:言語モデル事前学習における動的混合にデータインフルエンスを組み込む

Yifan Wang Binbin Liu Fengze Liu Yuanfan Guo Jiyao Deng Xuecheng Wu Weidong Zhou Xiaohuan Zhou Taifeng Wang

TiKMiX:言語モデル事前学習における動的混合にデータインフルエンスを組み込む

要約

言語モデルの事前学習に用いられるデータ混合は、最終的な性能において基盤的な役割を果たす。しかし、静的な混合戦略では最適ではなく、モデルが訓練の過程を通じて異なるデータドメインに対する学習の好みが動的に変化するためである。特に、計算効率の高い方法でこうした進化する好みを観測することは、依然として大きな課題である。これを解決するため、本研究では、モデルの進化する好みに応じてデータ混合を動的に調整する手法「TiKMiX」を提案する。TiKMiXは、データドメインがモデルに与える影響を効率的に評価するための指標「Group Influence」を導入している。この指標により、データ混合問題を「影響を最大化する最適な分布」を探索する問題として定式化できる。この問題に対して、2つのアプローチを採用する:直接最適化を実行するTiKMiX-Dと、回帰モデルを用いて優れた混合比を予測するTiKMiX-Mである。本研究では、最大1兆トークンまでを用いて、パラメータ数が異なる複数のモデルを訓練した。TiKMiX-Dは、REGMIXなどの最先端手法を上回る性能を達成しつつ、計算リソースのわずか20%で実現した。また、TiKMiX-Mは、9つの下流ベンチマークにおいて平均2%の性能向上をもたらした。実験の結果、モデルのデータに対する好みは訓練の進行度およびスケールに応じて変化することを明らかにし、Group Influence(こうした好みの直接的な指標)に基づいてデータ混合を動的に調整することで、静的比率によるデータの不十分な処理(underdigestion)を軽減し、性能の著しい向上が達成されることを示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TiKMiX:言語モデル事前学習における動的混合にデータインフルエンスを組み込む | 論文 | HyperAI超神経