Tongyi DeepResearch revolutioniert LLM-Training mit synthetischen Daten
Tongyi DeepResearch, ein neu vorgestellter agenter Forschungsmodell von Alibaba’s Tongyi Lab, markiert einen Wendepunkt im Training großer Sprachmodelle (LLM). Trotz einer vergleichsweise geringen Gesamtgröße von nur 30 Milliarden Parametern – wobei nur 3 Milliarden pro Token aktiviert werden – übertrifft es etablierte Modelle wie OpenAI o3 und DeepResearch in mehreren Benchmark-Aufgaben. Besonders auffällig ist der deutliche Leistungsunterschied zu Open-Source-Rivalen wie DeepSeek v3.1 (671B Parameter) oder Kimi Researcher (1 Billion Parameter), die auf wesentlich größeren Architekturen basieren. Die Schlüsseltechnologie hinter diesem Erfolg liegt in der Verwendung synthetischer Trainingsdaten und einer erweiterten, iterativen Forschungsparadigmen. Die Leistung von Tongyi DeepResearch basiert auf dem „Iterative Deep Research Paradigm“, einer Erweiterung des klassischen ReAct-Modells (Reasoning + Action), das durch kontinuierliches, agenz-basiertes Lernen gestärkt wurde. Zentrales Element ist der sogenannte „AgentFounder“-Ansatz, ein zweistufiges Vortrainingsverfahren: Zunächst mit 32K Kontextlänge, gefolgt von einer zweiten Phase mit 128K Kontextlänge. Dies ermöglicht eine tiefere Verarbeitung komplexer, langfristiger Aufgaben. Für die Datensynthese wurden zwei innovative Methoden eingesetzt: Erstens die First-Order Action Synthesis (FAS), bei der Wissen nicht mehr in klassischer „Wiki-Form“ wie „Paris ist die Hauptstadt von Frankreich“ gespeichert wird, sondern entitätsbasiert – beispielsweise „(Frankreich: Touristenankünfte in Frankreich erreichten 4,222 Millionen im Juni 2025)“. Dies fördert eine flexiblere, kontextreiche Abfragefähigkeit. Zweitens die Higher-Order Action Synthesis (HAS), bei der LLMs in jeder Entscheidungsstufe eine Vielzahl möglicher Handlungsvarianten generieren, um verschiedene kognitiven Pfade zu erkunden – ohne die endgültige Entscheidung zu beeinflussen. Dadurch wird eine tiefe Exploration von Problemlösungsstrategien ermöglicht. Diese synthetischen Trajektorien wurden durch Modelle wie Webshaper und WebSailor-V2 erzeugt, die durch formale Informationsbeschaffung und skalierbare Verstärkungslernverfahren (Reinforcement Learning) optimiert wurden. Die zugrundeliegenden Forschungspapiere zeigen, dass die Kombination aus kontinuierlichem Vortraining, entitätsbasiertem Wissensspeicher und multi-stufiger Entscheidungssynthese die Effizienz und Leistungsfähigkeit von Agenten erheblich steigert – selbst bei geringeren Parameterzahlen. Industrieexperten sehen in Tongyi DeepResearch ein klares Signal für die Zukunft des LLM-Trainings: Die Dominanz von Parametergrößen nimmt ab, während die Qualität synthetischer Daten und agenz-basierte Lernstrategien an Bedeutung gewinnen. Die Arbeit von Alibaba unterstreicht, dass intelligente Daten, nicht nur große Modelle, der Schlüssel zur nächsten Generation künstlicher Intelligenz sind. Dies könnte die Entwicklung offener, effizienter Forschungsagenten beschleunigen und die Innovationsdynamik im Bereich agenter KI neu definieren.
