腾讯开源 Hunyuan-A13B:130億パラメータのスパースMoEモデルが長文脈と二重モード推論を実現
腾讯オープンソース化した「Hunyuan-A13B」:130億パラメータのスパース MoE モデル 腾讯の「Hunyuan」チームは、新しい大規模言語モデル「Hunyuan-A13B」をオープンソース化しました。このモデルは800億の総パラメータを持つ一方で、推論時には130億のパラメータのみがアクティブ化され、高性能と低計算コストを両立しています。また、256K長文コンテクストや双方向思考フレームワークをサポートしています。 主要特徴 スパース MoE アーキテクチャ:130億のアクティブパラメータで動作します。64の非共有エキスパートと1つの共有エキスパートから構成され、各フォワードパスで8つのエキスパートがアクティブ化されます。 双方向思考能力:単純なクエリーには高速推論モードで対応し、複雑な推理が必要な場合は、詳細な思考モードに切り替えることができます。/no think タグと /think タグを使用して簡単に切り替え可能です。 最適化された訓練方法:20Tトークンのプレートレーニング、高速減衰、長文コンテクスト適応のステップを経て、安定した性能を確保します。最終段階では、NTK関知位置符号化を使用してコンテクストウィンドウを32Kから256Kトークンまで拡大します。 推論とデプロイ 推論フレームワークとの統合:vLLM、SGLang、TensorRT-LLMなどの人気推論フレームワークと完全に統合されています。 精度形式と最適化機能:W16A16、W8A8、KV Cache FP8などの精度形式をサポートし、Auto Prefix CachingやChunk Prefillなどの機能も搭載。最大1981.99トークン/秒のスループットを達成しており、リアルタイムアプリケーションにも適しています。 高度な性能 ベンチマークでの優秀な結果:BFCL-v3、τ-Bench、C3-Bench、ComplexFuncBenchなどでの評価でトップレベルの性能を発揮し、ツール操作や長文コンテクストのシーンではより大きなモデルを上回ることがあります。 長文理解力:PenguinScrollsで87.7のスコアを記録しており、Gemini 2.5 Proに次ぐ性能です。RULERでは64K–128Kコンテクストでも73.9の高スコアを維持し、Qwen3-A22BやDeepSeek R1などの大規模モデルを上回るコンテクストの持続性を示しています。 訓練後処理 強化学習とタスク固有の報酬モデル:理学的微調整(SFT)と、思考に関するタスクや一般的なタスクに向けた強化学習(RL)が含まれています。RL段階では、コード用のsandbox実行環境やエージェント用のルールベースチェックなど、具体的なフィードバックが利用されます。 オープンソースと産業への影響 オープンソースリライセンス:Hugging FaceとGitHubを通じて公開されており、自由度の高いオープンソースライセンスで提供されています。 研究と生産向け:低レイテンシ環境や長文コンテクストタスクでの効率的な使用が可能で、重いLLMの代替として魅力的です。 結論 Hunyuan-A13BはMoEアーキテクチャのスケーラビリティ、高度な推論能力、オープンソースのアクセス容易さを組み合わせることで、幅広い実験やデプロイメントを可能にしています。詳細は研究論文をご覧ください。このプロジェクトに関連する研究成果にはすべて研究人员にお礼を申し上げます。 また、当サイトのツイッターをフォローしたり、ML SubRedditに参加したり、ニュースレターを登録することをお勧めします。