OpenAI präsentiert Architektur für tiefgreifende Forschungs-AI-Module并不意味深究多AI代理研究架构。尝试重新表述如下: OpenAI stellt Architektur für vertiefte Forschung-AI vor
Kürzlich hat OpenAI ihre Vision für die Schaffung eines Deep-Research-AI-Agenten-Architekturen präsentiert. Diese Vision beruht auf mehreren Schlüsselüberlegungen, die das optimale Ausmaß an Werkzeugen und AI-Agenten definieren. Obwohl alle AI-Agenten in einen einzelnen Agenten mit mehreren Werkzeugen zusammengefasst werden können, gibt es ein optimales Gleichgewicht zwischen der Anzahl der Werkzeuge in einem AI-Agenten und dem Zeitpunkt, wann diese Werkzeuge in mehrere AI-Agenten aufgeteilt werden sollten. Wenn zu viele Werkzeuge einem einzelnen Agenten zugewiesen sind, kann dies zu Problemen bei der Werkzeugauswahl führen. Hier hat NVIDIA hervorragende Forschungsarbeiten zum Feinjustieren von Sprachmodellen für eine präzise Werkzeugauswahl geleistet. OpenAIs genereller Ansatz besteht darin, mehrere AI-Agenten in Kollaboration und Orchestrierung einzusetzen. Die Herstellung von Kontext und die Zusammenarbeit mehrerer Agenten sind entscheidend. Dies erinnert an die ursprünglichen Grundlagen von Chatbots, bei denen die Festlegung der Absicht wichtig war. Für forschungsbezogene Anfragen, die oft lang andauernde Prozesse sind, ist die klare Festlegung von Absicht und Kontext unerlässlich. Jeder AI-Agent nutzt ein unterschiedliches Sprachmodell, was interessant ist, da weniger teure Modelle für Unter-aufgaben verwendet werden können, während die eigentliche Nutzeranfrage vor der Übermittlung an ein kostspieliges und zeitintensives Modell gut vorbereitet wird. Durch die passende Zuordnung von Werkzeugen zu Aufgaben wird die Effizienz optimiert, die Kosten minimiert und eine skalierbare AI-Integration in Anwendungen gewährleistet. Spezifische Anwendung Bei komplexen Aufgaben, die strategisches Planen, Informationsverknüpfung aus vielfältigen Quellen, Integration spezialisierter Werkzeuge oder schichtweise mehrstufiges Denken erfordern – wie z.B. umfangreiche Marktanalysen, Debugging komplizierter Codeprobleme oder Erstellung umfassender Forschungsberichte – sollten Deep-Research-Agenten eingesetzt werden. Diese Agenten sind hervorragend darin, Workflows zu orchestrieren, sich an sich ändernde Kontexte anzupassen und differenzierte Ergebnisse durch das Zerlegen von Problemen in handhabbare Teile und notwendige Iterationen zu liefern. Für alltägliche Bedürfnisse wie schnelle Faktenabfrage, einfache Frage-Antwort-Dialoge oder kurze konversationsbasierte Interaktionen sollte jedoch die Standard-OpenAI-Chat-Completions-API verwendet werden. Diese einfachere Schnittstelle ist ideal für hochvolumige oder wenig komplexe Verwendungsszenarien, ohne die zusätzliche Latenz von Agenten-Orchestrierung. Vier-Agenten-Tiefe-Forschungs-Pipeline Triage-Agent Ich überprüfe die Nutzeranfrage genau, um zu verstehen, was los ist. Wenn ich das Gefühl habe, dass wichtiger Kontext fehlt, leite ich die Anfrage an den Clarifier-Agent weiter, damit er tiefer bohrt. Ansonsten, wenn alles klar ist, gebe ich die Anfrage direkt an den Instruction-Agent weiter, um den Prozess fortzusetzen. Clarifier-Agent Meine Aufgabe besteht darin, die Anfrage zu klären, indem ich die wesentlichen Nachfragfragen stelle. Dann warte ich auf die Antworten des Nutzers – oder einer simulierten Antwort –, die wir benötigen, um fortzufahren. Instruction-Builder-Agent Sobald wir den bereicherten Input haben, trete ich ein und transformiere ihn in eine sehr präzise Forschungsanweisung, die zur Umsetzung bereit ist. Research-Agent (o3-deep-research) Ich führe umfangreiche empirische Forschungen durch, indem ich das WebSearchTool einsetze, um alle relevanten Informationen zu sammeln. Gleichzeitig prüfe ich unsere interne Wissensbank mit MCP – falls es relevante Inhalte gibt, ziehe ich diese Snippets hinzu, um meine Referenzen zu erweitern. Um Sie über den Fortgang zu informieren, sende ich die Zwischenergebnisse als transparente Ereignisströme. Am Ende liefere ich den polierten Forschungsartefakt, der später analysiert werden kann. Beobachtbarkeit Die Funktion print_agent_interaction, auch bekannt als parse_agent_interaction_flow im OpenAI-Cookbook-Beispiel für Deep-Research-Agenten, dient als nützliches Werkzeug zur Visualisierung und Debugging des dynamischen Workflows von Multi-Agenten-Systemen. Sie nimmt einen Strom von AI-Agenten-Ereignissen entgegen und durchläuft jedes Element, um eine klare, nummerierte Sequenz zu drucken, die wichtige Aktivitäten wie Agentenwechsel, Werkzeugaufrufe (einschließlich Namen und Argumenten), Denkschritte und Nachrichtenausgaben hervorhebt, alles mit dem Namen des entsprechenden Agenten vorangestellt. Dies ist unverzichtbar für Entwickler, die komplexe Forschungspipelines bauen, da es Rohdaten in ein menschenlesbares Format transformiert und so die Transparenz während des Testens oder Monitorings erhöht. Man kann sie als eine leichtgewichtige Trace-Logger-Funktion betrachten, die unwichtige Details überspringt und auf die Kerninteraktionen zwischen Agenten wie Triage, Clarifier, Instruction-Builder und Forschungskomponenten fokussiert. Zukunftsperspektiven Die nächste Herausforderung besteht darin, die Kollaboration von AI-Agenten zu ermöglichen, die nicht in der gleichen Organisation tätig sind. Zudem ist die Integration von AI-Agenten in die menschliche Welt des komplexen Web-Surfens und des Navigierens in Betriebssystemen ein wesentlicher Schritt. Cobus Greyling, Chief Evangelist bei Kore.ai, ist leidenschaftlich daran interessiert, den Schnittpunkt von KI und Sprache zu erforschen. Seine Arbeit reicht von Sprachmodellen und AI-Agenten bis hin zu agentialen Anwendungen, Entwicklungsframeworks und datenorientierten Produktivitätstools. Er teilt Einblicke und Ideen darüber, wie diese Technologien die Zukunft gestalten.