Command Palette
Search for a command to run...
DataFlex: 大規模言語モデルのデータ中心動的学習のための統合フレームワーク
DataFlex: 大規模言語モデルのデータ中心動的学習のための統合フレームワーク
概要
データ中心の学習は、モデルパラメータの最適化だけでなく、最適化過程における学習データの選択、構成、重み付けを最適化することで大規模言語モデル(LLM)の性能向上に有望な方向性として浮上しています。しかし、既存のデータ選択、データミックス最適化、データ再重み付けのアプローチは、しばしば個別のコードベースで開発され、インターフェースが一貫していないため、再現性、公平な比較、実用的な統合を妨げています。本研究では、LLaMA-Factory を基盤とした統合的なデータ中心の動的学習フレームワーク「DataFlex」を提案します。DataFlex は、サンプル選択、ドメインミックスの調整、サンプル再重み付けという 3 つの主要な動的データ最適化のパラダイムをサポートしつつ、元の学習ワークフローと完全に互換性を保っています。拡張可能なトレーナー抽象化とモジュール化されたコンポーネントを提供し、標準的な LLM 学習への差し替え(drop-in replacement)を可能にします。さらに、埋め込み抽出、推論、勾配計算といったモデル依存の主要操作を統一し、DeepSpeed ZeRO-3 を含む大規模設定への対応を実現しています。複数のデータ中心手法に対して包括的な実験を実施しました。動的データ選択は、Mistral-7B および Llama-3.2-3B の両モデルにおいて、MMLU 基準で静的な全データ学習を常に上回る性能を示しました。データミックスに関しては、SlimPajama 上で Qwen2.5-1.5B を 6B トークンおよび 30B トークンのスケールで事前学習する際、DoReMi および ODM がデフォルトの割合に対して MMLU 精度とコーパスレベルのパープレキシティの両方を改善しました。また、DataFlex は元の実装と比較して一貫して実行時間の短縮を達成しました。これらの結果は、DataFlex が LLM のデータ中心の動的学習に対して、効果的かつ効率的で再現性のあるインフラストラクチャを提供することを示しています。