HyperAIHyperAI

Command Palette

Search for a command to run...

トウイ・ディープリサーチが急成長する理由:合成データ訓練で小型モデルが大手を越えた真相

アリババ・トンイラボが新たに公開した自律型研究モデル「トンイ・ディープリサーチ(Tongyi DeepResearch)」が、OpenAIのo3やDeepResearchを上回る性能を発揮したことで注目を集めている。このモデルは総パラメータ数300億(1トークンあたり30億がアクティブ)と、非常にコンパクトながら、パラメータ数が6710億のDeepSeek-v3.1や1兆のKimi Researcher(Kimi v2ベース)を凌駕した。その驚異的な性能の裏には、合成データを活用した革新的な学習戦略がある。 トンイ・ディープリサーチの鍵は、「反復的深層研究フレームワーク(Iterative Deep Research Paradigm)」への拡張にある。これは、従来のReAct(Reasoning + Action)フレームワークを発展させ、AIが複数の意思決定経路を探索しながら、段階的に問題を解決する能力を強化したものだ。このモデルは、合成された推論・行動の軌跡データ(synthetic trajectory data)を大規模に活用して学習しており、実際のデータに依存せず、設計されたプロセスで学習を進める。 学習プロセスは「エージェント・ファウンダー(AgentFounder)」と呼ばれる継続的前処理スキームに基づく。第一段階では32Kのコンテキスト長で学習し、第二段階では128Kまで拡張。これにより、長文の情報をより効果的に処理できるようになる。 合成データの生成には、2つのアプローチが採用されている。まず「一次行動合成(FAS)」では、知識を「実体(Entity)」に anchored して表現する。たとえば「フランス:2025年6月の観光客数は4,222千人」といった形で、実体を基軸とした多様な質問・回答セットを構築。次に「高次行動合成(HAS)」では、各ステップで大規模言語モデル(LLM)が複数の推論候補を生成し、より広範な意思決定の可能性を探索。最終的な決定はバイナリ(Yes/No)のまま維持されるため、結果の整合性は保たれる。 これらの技術は、アリババが公開した論文群(arXiv:2509.13310, arXiv:2507.15061など)で詳細に説明されており、合成データとスケーラブルな強化学習の融合が、オープンソースAI研究の新たな地平を切り開いている。トンイ・ディープリサーチは、パラメータ数の少なさと高い性能の両立を実現し、今後のLLM学習のあり方を再定義する可能性を秘めている。

関連リンク