Command Palette

Search for a command to run...

15日前

RedOne 2.0:ソーシャルネットワーキングサービスにおけるドメイン固有LLMのポストトレーニングの再考

RedOne 2.0:ソーシャルネットワーキングサービスにおけるドメイン固有LLMのポストトレーニングの再考

要約

人間の相互作用および情報交換の重要な媒体として、ソーシャルネットワーキングサービス(SNS)は、大規模言語モデル(LLM)に特有の課題をもたらす。具体的には、多様なワークロード、急速に変化するルールやスラング、そして多言語・文化的に多様なコーパスによる顕著な分布シフトが挙げられる。教師あり微調整(SFT)はモデルの専門性を高められるが、特に小規模モデルでは「シーソーゲーム」現象——即ち、分布内性能の向上と分布外ロバスト性の間でトレードオフが生じる——を引き起こす傾向がある。こうした課題に対処するため、本研究では、急速かつ安定した適応を実現するための段階的で強化学習(RL)を優先する後学習パラダイムを採用した、SNS指向の大規模言語モデル「RedOne 2.0」を提案する。本パイプラインは以下の3段階から構成される。(1)選別されたSNSコーパス上で行う探索的学習:初期の整合性を確立し、体系的な弱みを特定する;(2)ターゲット微調整:診断されたギャップにのみSFTを適用しつつ、少量の汎用データを混ぜることで忘却を抑制する;(3)精練学習:SNS中心の信号を再び用いた強化学習を適用し、性能向上を定着させ、複数タスク間のトレードオフを調和する。3つのカテゴリにまたがるさまざまなタスクにおいて、本研究の4B規模モデルは7B規模の最適でないベースラインに対して平均で2.41の改善を達成した。さらに、RedOne 2.0はSFT中心の手法であるRedOneに比べ、必要なデータ量の半分以下でベースモデル比平均8.74の性能向上を達成しており、コンパクトなスケールでも優れたデータ効率性と安定性を示している。総合的に見て、RedOne 2.0はSNS環境におけるドメイン特化型LLMの競争力のある、コスト効率の高いベースラインを確立し、ロバスト性を損なうことなく性能を向上させることに貢献した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
RedOne 2.0:ソーシャルネットワーキングサービスにおけるドメイン固有LLMのポストトレーニングの再考 | 論文 | HyperAI超神経