Qwen3-Max は 1 兆を超えるパラメータを誇り、複数のベンチマークで SOTA を達成し、予測推論強化バージョンは数学オリンピックで満点を獲得しました。

本日(9月24日)、毎年恒例の雲奇カンファレンスが正式に開幕しました。アリババクラウドが実力を披露するこの舞台において、AIは紛れもなく主役を務めました。オープンソースモデルからエージェントアプリケーション、サーバーなどのインフラ、開発者エコシステムに至るまで、今回のAIコンペティションにおいて、アリババクラウドはその技術競争力を存分に発揮しました。ハギングフェイスのリストによると、同義千文をベースに開発された派生モデルの数は17万台に達し、アメリカのラマシリーズを抜いて世界一になったという。
Alibabaをフォローしている読者の皆様はご存知かもしれませんが、Yunqiカンファレンス開催のわずか前日、AlibabaのTongyi Big Modelチームが既に3つの高性能モデルをオープンソース化していました。ネイティブオムニモーダルビッグモデルQwen3-Omni、音声生成モデルQwen3-TTS、そして画像編集モデルQwen-Image-Edit-2509です。いずれも、それぞれの分野において主流モデル、あるいはSOTAレベルに匹敵する性能を達成しています。
どうやらこれらは単なる前菜に過ぎないようだ。先日閉幕した雲奇カンファレンスの開会式で、Qwen3-Maxが正式に発表された。このモデルは同社史上最大かつ最強のモデルと言われている。モデルパラメータは1Tで、複数の評価ベンチマークを席巻した。さらに、カンファレンスでは、Qwen3-VL や Qwen3-Coder などのモデルも紹介されました。
Qwen3-Max: これまでで最大かつ最強
Qwen3-Maxは、今回のリリースにおける紛れもないハイライトです。チームが開発したこれまでで最大かつ最も高性能なモデルであるQwen3-Max-Instructのプレビュー版は、LMArenaのテキストリーダーボードでGPT-5-Chatを上回り、3位にランクインしました。正式版では、コード機能とエージェント機能がさらに向上し、知識、推論、プログラミング、指示の追従、人間の好みの調整、インテリジェント エージェント タスク、多言語理解を網羅した包括的なベンチマーク テストで SOTA レベルに達しています。例えば、現実世界のプログラミング課題の解決に重点を置いたSWE-Bench Verifiedベンチマークでは、Qwen3-Max-Instructは69.6ポイントという優れたスコアを達成しました。インテリジェントエージェントのツール呼び出し能力を評価するTau2-Benchベンチマークでは、Qwen3-Max-InstructはClaude Opus 4とDeepSeek-V3.1を74.8ポイントで上回りました。

具体的には、Qwen3-Max モデルの合計パラメータが 1T を超えており、事前トレーニングには 36T トークンが使用されます。モデルアーキテクチャはQwen3シリーズのMoEモデル設計を踏襲し、グローバルバッチ負荷分散損失を利用することで、安定的かつスムーズな事前学習損失を実現します。学習はシームレスで、損失の急上昇や、学習のロールバックやデータ配分の変更といった調整は発生しません。
公式発表によると、PAI-FlashMoEの効率的な多段パイプライン並列戦略の最適化により、Qwen3-Max-Baseのトレーニング効率が大幅に向上し、Qwen2.5-Max-Baseと比較してMFUが30%向上しました。さらに、長シーケンストレーニングシナリオでは、ChunkFlow戦略を採用することで、シーケンス並列ソリューションの3倍のスループットを実現し、Qwen3-Maxの1M長コンテキストのトレーニングをサポートしました。同時に、SanityCheck、EasyCheckpoint、スケジューリングリンクの最適化など、様々な手段を通じて、大規模クラスタ上の Qwen3-Max のハードウェア障害による時間損失は、Qwen2.5-Max の 5 分の 1 に削減されます。
特筆すべきは、Qwen3-Maxの推論機能強化版であるQwen3-Max-Thinkingはまだ公式に発表されていないものの、チームが公開したデータによると、その深い推論能力は新たな高みに達し、極めて難しい数学的推論ベンチマークであるAIME 25とHMMTで満点を獲得し、オリンピック数学競技でも満点を獲得したということだ。
Qwen3-VL-235B: SOTAを更新し世界一に
Qwen3-VLは、Qwen3シリーズにおけるマルチモーダル視覚言語モデル(VLM)のブランチです。視覚理解とテキスト生成能力のバランスと飛躍的な進歩を目指しています。開発チームは、これをQwenシリーズの中でこれまでで最も強力な視覚言語モデルと呼んでいます。Qwen3-VLは、純粋なテキストの理解と生成、視覚コンテンツの認識と推論、コンテキストの長さのサポート、空間関係と動的なビデオの理解、そしてエージェントとのインタラクションにおけるパフォーマンスにおいて、大幅な改善を示しています。

今回発売されたオープンソースの新フラッグシップモデルQwen3-VL-235Bは、総合性能で世界第1位を獲得し、高精細の複雑な画像やきめ細かい認識シーンでのパフォーマンスが大幅に向上しました。Instruct バージョンと Thinking バージョンの両方が含まれています。
総合的な大学レベルの質問、数学的・科学的推論、論理パズル、一般的な視覚的な質問回答、主観的な経験と指示の追従、多言語テキスト認識、チャート文書解析を含む10の次元の評価の下で、Qwen3-VL-235B-A22B-Instruct は、非推論モデルの中で、ほとんどの指標で最高のパフォーマンスを発揮します。これは、Gemini 2.5 Pro や GPT-5 などのクローズドソース モデルを大幅に上回り、オープンソースのマルチモーダル モデルの最高の結果を刷新し、複雑な視覚タスクにおける強力な一般化能力と包括的なパフォーマンスを実証しています。
具体的には、Qwen3-VL は複数の主要な機能面で体系的なアップグレードを実施しました。
ビジュアルエージェント:Qwen3-VLは、コンピュータや携帯電話のインターフェースを操作し、GUI要素を識別し、ボタンの機能を理解し、ツールを呼び出し、タスクを実行することができます。OS Worldなどのベンチマークにおいて世界をリードするレベルに達しており、ツールを呼び出すことで、きめ細かな認識タスクにおけるパフォーマンスを効果的に向上させることができます。
プレーンテキスト機能はトップクラスの言語モデルに匹敵します。Qwen3-VLは、事前学習の初期段階において、テキストと視覚モダリティを混合した協調学習を行い、テキスト処理能力を継続的に強化しています。最終的に、純粋テキストタスクにおけるパフォーマンスは、フラッグシップモデルであるQwen3-235B-A22B-2507純粋テキストモデルに匹敵します。これは、強固なテキスト基盤とマルチモーダルな汎用性を備えた、真に次世代の視覚言語モデルです。
ビジュアル コーディング機能が大幅に改善されました。画像生成コードと動画生成コードを実装します。例えば、設計図を見ると、Draw.io/HTML/CSS/JSコードが生成され、まさに「見たままのビジュアルプログラミング」を実現します。
空間認識能力が大幅に向上します。2Dグラウンディングは絶対座標から相対座標へと変化し、物体の向き、視点の変化、遮蔽関係の判断をサポートします。これにより3Dグラウンディングを実現し、複雑なシナリオにおける空間推論と具体化されたシーンの基盤を築くことができます。
長いコンテキストのサポートと長いビデオの理解:モデルファミリー全体は、256Kトークンのコンテキスト長をネイティブでサポートし、100万トークンまで拡張可能です。つまり、数百ページに及ぶ技術文書、教科書一冊、あるいは2時間のビデオなど、あらゆる情報を完全に入力、記憶し、正確に取得できるため、秒単位の精度でビデオのピンポイント検索が可能です。
マルチモーダル思考能力が大幅に向上します。思考モデルは、STEM(科学・技術・工学・数学)と数学的推論能力を重視しています。専門分野の質問に直面した際、このモデルは細部を捉え、複雑な問題を解き明かし、因果関係を分析し、論理的で根拠のある解答を提供します。MathVision、MMMU、MathVistaといった権威ある評価システムにおいて、優れた成績を収めています。
視覚認識機能が全面的にアップグレードされました。事前トレーニング データの品質と幅を最適化することで、モデルは有名人、アニメのキャラクター、商品、ランドマークから植物や動物まで、より豊富なオブジェクト カテゴリを認識できるようになり、日常生活や専門分野の「あらゆるものの認識」のニーズに対応します。
OCR はより多くの言語と複雑なシナリオをサポートします:中国語と英語以外のサポート言語が 10 言語から 32 言語に拡大され、より多くの国と地域をカバーします。複雑な照明、ぼやけ、傾きなど、実際の撮影の難しいシナリオでもパフォーマンスがより安定します。珍しい文字、古代文字、専門用語の認識精度も大幅に向上し、超長文の文書を理解して微細な構造を復元する能力がさらに強化されました。
Qwen3 コーダープラス:プログラミング効率より高く、より正確に
Qwen3シリーズの専用コーディングモデルであるQwen3 Coderは、前世代のCoderを全面的にアップグレードしたものです。クローズドソースAPIを採用し、より高いプログラミング効率と精度を実現しています。世界で最も人気のあるプログラミングモデルの1つとなり、多くの開発者に愛されています。
今回リリースされたQwen3 Coder Plusは、Alibaba社のオープンソースQwen3 Coder 480B A35Bの独自バージョンです。強力なコーディング エージェント モデルとして、コーディング機能とさまざまな一般的な機能を組み合わせることで、ツール呼び出しと環境の相互作用による自律プログラミングに優れています。
技術的なハイライト:
* Qwen CodeおよびClaude Codeシステムとの共同トレーニングにより、CLIアプリケーションのパフォーマンスが大幅に向上します。
* 推論速度の高速化とタスク実行の効率化 * コードセキュリティの向上、責任あるAIへの移行
HyperAI Hyperneuralの公式サイト(hyper.ai)では、Tongyi Qianwenチームによる高品質なオープンソースモデルのチュートリアルを公開しています。ワンクリックでデプロイできるチュートリアルリンクをご覧ください:https://hyper.ai/tutorials