HyperAI超神経

アリババ・トンイラボが新たに公開した自律型研究モデル「トンイ・ディープリサーチ（Tongyi DeepResearch）」が、OpenAIのo3やDeepResearchを上回る性能を発揮したことで注目を集めている。このモデルは総パラメータ数300億（1トークンあたり30億がアクティブ）と、非常にコンパクトながら、パラメータ数が6710億のDeepSeek-v3.1や1兆のKimi Researcher（Kimi v2ベース）を凌駕した。その驚異的な性能の裏には、合成データを活用した革新的な学習戦略がある。トンイ・ディープリサーチの鍵は、「反復的深層研究フレームワーク（Iterative Deep Research Paradigm）」への拡張にある。これは、従来のReAct（Reasoning + Action）フレームワークを発展させ、AIが複数の意思決定経路を探索しながら、段階的に問題を解決する能力を強化したものだ。このモデルは、合成された推論・行動の軌跡データ（synthetic trajectory data）を大規模に活用して学習しており、実際のデータに依存せず、設計されたプロセスで学習を進める。学習プロセスは「エージェント・ファウンダー（AgentFounder）」と呼ばれる継続的前処理スキームに基づく。第一段階では32Kのコンテキスト長で学習し、第二段階では128Kまで拡張。これにより、長文の情報をより効果的に処理できるようになる。合成データの生成には、2つのアプローチが採用されている。まず「一次行動合成（FAS）」では、知識を「実体（Entity）」に anchored して表現する。たとえば「フランス：2025年6月の観光客数は4,222千人」といった形で、実体を基軸とした多様な質問・回答セットを構築。次に「高次行動合成（HAS）」では、各ステップで大規模言語モデル（LLM）が複数の推論候補を生成し、より広範な意思決定の可能性を探索。最終的な決定はバイナリ（Yes/No）のまま維持されるため、結果の整合性は保たれる。これらの技術は、アリババが公開した論文群（arXiv:2509.13310, arXiv:2507.15061など）で詳細に説明されており、合成データとスケーラブルな強化学習の融合が、オープンソースAI研究の新たな地平を切り開いている。トンイ・ディープリサーチは、パラメータ数の少なさと高い性能の両立を実現し、今後のLLM学習のあり方を再定義する可能性を秘めている。

関連リンク

関連リンク

関連リンク

Command Palette

トウイ・ディープリサーチが急成長する理由：合成データ訓練で小型モデルが大手を越えた真相

関連リンク

Command Palette

トウイ・ディープリサーチが急成長する理由：合成データ訓練で小型モデルが大手を越えた真相

関連リンク

Command Palette

トウイ・ディープリサーチが急成長する理由：合成データ訓練で小型モデルが大手を越えた真相

関連リンク