HyperAI超神経
Back to Headlines

Microsoft、新モデル「Phi-4-mini-Flash-Reasoning」リリース:効率的な長文推理を実現

4日前

MicrosoftがPhi-4-mini-Flash-Reasoningを発表:コンパクトなアーキテクチャによる効率的な長期コンテキスト推論 Microsoftは、Phi-4モデル・ファミリーの最新追加メンバーとして、高推論効率を維持しながら長期コンテキスト推論を得意とする公開軽量言語モデル、Phi-4-mini-Flash-ReasoningをHugging Face平台上に公開しました。この38億パラメータモデルは、数学問題の解法やマルチホップ質問回答などの密接な推論タスクに特化し、前世代モデルの約10倍の高速性能を達成しています。 アーキテクチャ:ゲート付きメモリとハイブリッドデコーディング Phi-4-mini-Flash-Reasoningの基盤は、State Space Models(SSMs)とアテンション層を軽量メカニズム「Gated Memory Unit(GMU)」で統合した新しいSambaYアーキテクチャです。この構造により、各層間での効率的なメモリ共有が可能となり、長期コンテキストや長いジェネレーションタスクにおける推論遅延が大幅に削減されます。 SSMsとGMUsを組み合わせたSambaYアーキテクチャは、Transformerベースのモデルではメモリを消費するアテンション計算を大幅に軽減します。自己デコーダーにはSamba(ハイブリッドSSMアーキテクチャ)を使用し、クロスデコーダーの約半分のクロスアテンション層をGMUsで置換することで、冗長な計算を避けることが可能です。これにより、前処理の線形時間複雑さと低いデコーディングI/Oが実現し、推論速度が飛躍的に向上します。 トレーニング管道と推論能力 このモデルは5兆トークンの高品質な合成データとフィルタリングされた実データで事前学習され、Phi-4-miniファミリーの他のモデルと同等の手順で行われました。その後、論理的推論に焦点を当てた指示データセットを用いて多段の教師あり微調整(SFT)と直接好み最適化(DPO)を経験します。注目すべきことに、強化学習(RLHF)は全く使用されていません。 しかし、Phi-4-mini-Flash-ReasoningはPhi-4-mini-Reasoningを含む既存の開放モデルを上回る性能を示しています。Math500ベンチマークでは92.45%のPass@1精度を達成し、Qwen-1.5BやBespoke-Stratos-7Bなどの他の开放モデルを凌駕しています。AIME24でも52%以上の精度を実現しています。 この性能向上の要因は、64Kコンテキスト長対応とvLLMフレームワークによる最適化された推論能力にあります。2Kトークンの PROMPT と32Kトークンのジェネレーションの遅延ベンチマークでは、前モデルとは対照的に最大10倍の高出力性能を達成しています。 長期コンテキスト処理の効率化 効率向上は理論的なものだけではありません。SambaYアーキテクチャの導入により、PhonebookやRULERなどの長期コンテキストベンチマークでも競争力を保っています。スライドウィンドウアテンション(SWA)サイズが256という小規模でも、高い検索精度が維持されています。 GMU層の導入により、通常O(N·d)の時間が必要なアテンション操作がO(d)に削減され、計算とメモリの負荷が大幅に軽減されます。結果として、マルチターンやドキュメントレベルのシナリオでもリアルタイム推論が可能となります。 オープンソースと利用例 Microsoftは、このモデルの重みと設定をHugging Face平台上でオープンソース化し、コミュニティへの完全なアクセス提供を開始しました。64Kコンテキスト長対応、標準のHugging FaceおよびvLLM実行環境サポート、A100 GPU向けの最適化などで、計算リソースが制限されているがタスク複雑度の高い環境での展開に適しています。 このモデルは、計算資源が狭くてもタスクが複雑である状況において、その開かれたアクセス、推論能力、および効率的な推論特性から、強力な選択肢となっています。研究者たちは、Phi-4-mini-Flash-Reasoningの発表によって、ハイブリッドモデルの利用が長期コンテキスト言語モデリングの新たな方向性となり、商用大規模言語モデル(LLMs)のスケーラブルなオープンソース代替案を切り開いていると考えています。 (参考文献:論文、コード、Hugging Faceモデルページ、技術的な詳細)

Related Links