HyperAIHyperAI

Command Palette

Search for a command to run...

vor 19 Stunden
Google
Agent
Multimodal

Google etabliert Interactions API für Gemini und Agenten

Google hat die Interactions API offiziell zur zentralen Schnittstelle für Gemini-Modelle und KI-Agenten erklärt und damit einen entscheidenden Schritt hin zu einem agentenbasierten Entwickler-Ökosystem vollzogen. Die aktualisierte API ersetzt ab sofort den Legacy-Modus in Google AI Studio und der offiziellen Dokumentation als Standard, bleibt aber parallel zur bestehenden generateContent-Funktion verfügbar. Google betont, dass zukünftige Spitzenfähigkeiten bei langlaufenden Modellen und autonom agierenden Systemen primär über die Interactions API implementiert werden, da sie von Grund auf für zustandsbehaftete, agentengetriebene Workflows konzipiert ist. Zu den Kerninnovationen zählt die vereinfachte Steps-Struktur, die das bisherige Rollen-Konzept durch typisierte Aktionsschritte wie Nutzereingabe, Gedankengang oder Funktionsaufruf ersetzt. Dies ermöglicht eine präzisere Steuerung komplexer Abläufe. Für den agentenbasierten Einsatz stellt eine einzelne API-Anfrage nun eine remote Linux-Sandbox bereit, in der der Antigravity-Agent als Standardwerkzeug automatisch Reasoning, Codeausführung, Websuche und Dateimanagement durchführt. Entwickler können darüber hinaus eigene Agenten mit individuellen Instruktionen, Fähigkeiten und Datenquellen definieren. Asynchrone Verarbeitung wird durch den Parameter background=True unterstützt, während integrierte Google-Tools wie Suche und Maps nun nahtlos mit benutzerdefinierten Funktionen kombiniert und mit Bilddaten angereichert zurückgegeben werden können. Das Deep-Research-Feature wurde erweitert und bietet nun zwei Leistungsprofile zur Auswahl zwischen Geschwindigkeit und Analyse-Tiefe. Zudem unterstützen kollaborative Planungsfunktionen, native Diagramme und die multimodale Verankerung in Bildern, PDFs sowie Audiodaten. Im Bereich der Medienproduktion ermöglicht die API die Generierung von Grafiken via Nano Banana 2, die Musiksynthese mit Lyria 3 sowie mehrstimmige Text-to-Speech-Ausgaben. Für die Kosten- und Leistungssteuerung werden Flex- und Priority-Tiers eingeführt, wobei die Flex-Variante eine Kostensenkung um bis zu 50 Prozent bei akzeptabler Latenzerhöhung erlaubt. Die Fehlerauswertung wurde präzisiert, sodass Probleme exakt lokalisierbar sind, während Nutzerverläufe auf kostenpflichtigen Tarifen bis zu 55 Tage gespeichert werden können. Um die Integration zu beschleunigen, hat Google das gemini-interactions-api-Skill veröffentlicht, das Entwickler-KI-Agenten automatisch mit aktuellen Best Practices für Streaming, strukturierte Ausgaben und Deep-Research-Anfragen versorgt. Die offizielle Migrationsanleitung unterstützt den schrittweisen Wechsel. Mit der neuen Architektur positioniert sich Google gezielt für die nächste Generation autonomer Softwareentwicklung, indem sie eine einheitliche, skalierbare und agentenoptimierte Grundlagenschnittstelle bereitstellt, die Entwicklungsaufwände reduziert und die Einsatzfähigkeit von KI-Modellen in produktiven Workflows signifikant verbessert.

Verwandte Links

Google etabliert Interactions API für Gemini und Agenten | Aktuelle Beiträge | HyperAI