HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA GPU でマルチモーダル AI、3.7 バージョンのファスト実行を実装

StepFun は最新の大規模言語モデル「Step 3.7 Flash」を発表し、NVIDIA の GPU 環境で運用可能なエンタープライズ向けの多モーダル AI として配信を開始しました。このモデルは 1980 億パラメータを擁する混合 expert 構造の Vision-Language モデルで、1 回の推論で約 110 億パラメータが活性化します。画像や動画などの視覚情報と 25 万トークンのコンテキスト長をサポートし、低、中、高の 3 レベルで推論深度を調整可能です。企業向けに金融分析や同時並行のコーディングエージェント、高スループットな多モーダルタスクを想定しており、認識、検索、複数段階の推論をリアルタイムで実行できます。開発者は Hugging Face から NVIDIA 向けの NVFP4 量子化チェックポイントを入手し、メモリ帯域幅とストレージ要件を削減しながら推論を高速化できます。さらに SGLang や NVIDIA TensorRT-LLM、vLLM といったオープンソースフレームワークと連携し、NVIDIA 製のハードウェア最適化カーネルを活用して展開が可能です。また、build.nvidia.com を通じて GPU 加速エンドポイントを提供しており、NVIDIA Nemotron Parse と組み合わせた文書インテリジェンスパイプラインのデモも公開されています。このパイプラインは、財務報告書やスライド、論文といった複雑な大規模文書から構造化された情報を抽出し、Bounding Box を使用して整理します。生産環境への移行には NVIDIA NIM が利用でき、コンテナ化された推論マイクロサービスとして、オンプレミス、クラウド、ハイブリッド環境のどこでも柔軟にデプロイできます。NVIDIA NeMo Framework を用いれば、Hugging Face のチェックポイントから直接、ドメイン固有データでの Day 0 フォーカスチューニングが可能で、Hopper GPU 上では 1 秒あたり 600 トークンの速度で LoRA や教師あり微調整が実行可能です。さらに DGX Station などのハードウェアと連携し、748 GB の整合性メモリを活用することで、25 万トークンの完全なコンテキスト長を処理しつつ高速なローカル開発環境を実現します。NVIDIA はこのモデルをオープンソースとして公開し、AI の透明性と安全性の共有を促進しています。

関連リンク