Agenten-KI: Eine Untersuchung der Horizonte multimodaler Interaktion
Agenten-KI: Eine Untersuchung der Horizonte multimodaler Interaktion
Abstract
Multimodale KI-Systeme werden voraussichtlich in Zukunft allgegenwärtig in unserem Alltag werden. Ein vielversprechender Ansatz, diese Systeme interaktiver zu gestalten, besteht darin, sie als Agenten in physischen und virtuellen Umgebungen zu verankern. Derzeit nutzen Systeme bestehende Grundmodelle als grundlegende Bausteine zur Entwicklung verankerter Agenten. Die Einbettung von Agenten in solche Umgebungen ermöglicht es Modellen, visuelle und kontextuelle Daten effektiv zu verarbeiten und zu interpretieren – ein zentraler Faktor für die Entwicklung fortschrittlicherer, kontextbewussterer KI-Systeme. So kann beispielsweise ein System, das Benutzeraktionen, menschliches Verhalten, Umweltgegenstände, auditive Ausdrücke sowie die kollektive Stimmung einer Szene wahrnehmen kann, genutzt werden, um die Reaktionen des Agenten innerhalb der gegebenen Umgebung gezielt zu steuern und zu informieren. Um die Forschung im Bereich agentenbasierter multimodaler Intelligenz zu beschleunigen, definieren wir „Agenten-KI“ als eine Klasse interaktiver Systeme, die visuelle Reize, Spracheingaben und andere umweltbasierte Daten wahrnehmen sowie sinnvolle, verankerte Handlungen ausführen können. Insbesondere erforschen wir Systeme, die darauf abzielen, Agenten durch die Vorhersage der nächsten verankerten Aktion zu verbessern, indem sie externe Wissensquellen, mehrsinnsbasierte Eingaben und menschliche Rückmeldungen integrieren. Wir argumentieren, dass die Entwicklung agenter KI-Systeme in realen, kontextbasierten Umgebungen dazu beitragen kann, die Halluzinationen großer Grundmodelle und deren Neigung zu generieren umweltinkorrekter Ausgaben zu reduzieren. Das sich entwickelnde Feld der Agenten-KI umfasst die umfassenderen Aspekte der Verankerung und Agentialität in multimodalen Interaktionen. Abgesehen von Agenten, die in der physischen Welt agieren und interagieren, können wir uns eine Zukunft vorstellen, in der Menschen nahezu beliebige virtuelle Realitäten oder Simulationszenen erstellen und mit Agenten interagieren, die in diesen virtuellen Umgebungen verankert sind.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.