HyperAIHyperAI

Command Palette

Search for a command to run...

GameplayQA: Ein Benchmark-Framework für die verhaltensdichte, POV-synchrone Mehrvideo-Verständnisanalyse von 3D-Virtual Agents

Yunzhe Wang Runhui Xu Kexin Zheng Tianyi Zhang Jayavibhav Niranjan Kogundi Soham Hans Volkan Ustun

Zusammenfassung

Multimodale LLMs werden zunehmend als perzeptive Backbones für autonome Agenten in 3D-Umgebungen eingesetzt, von der Robotik bis hin zu virtuellen Welten. Diese Anwendungen erfordern, dass Agenten rasche Zustandsänderungen wahrnehmen, Aktionen den korrekten Entitäten zuordnen und aus einer Ich-Perspektive über gleichzeitige Multi-Agenten-Verhalten reasoning können – Fähigkeiten, die von bestehenden Benchmarks unzureichend evaluiert werden. Wir stellen GameplayQA vor, ein Framework zur Evaluierung agentic-zentrierter Perzeption und Reasoning durch Videoverständnis. Konkret annotieren wir Multiplayer-3D-Gameplay-Videos dicht mit einer Rate von 1,22 Labels pro Sekunde und versehen sie mit zeitlich synchronisierten, gleichzeitigen Beschreibungen von Zuständen, Aktionen und Ereignissen, die um ein triadisches System aus Self, Other Agents und World strukturiert sind – eine natürliche Zerlegung für Multi-Agenten-Umgebungen. Aus diesen Annotationen leiteten wir 2.400 diagnostische QA-Paare ab, die in drei Ebenen kognitiver Komplexität organisiert sind, begleitet von einer strukturierten Taxonomie von Distraktoren, die eine feingranulare Analyse von Halluzinationen in Modellen ermöglicht. Die Evaluierung führender MLLMs zeigt eine erhebliche Lücke zur menschlichen Leistung auf, wobei häufige Fehler in der temporalen und videoübergreifenden Grounding, der Zuordnung von Agentenrollen sowie im Umgang mit der Entscheidungsdichte des Spiels auftreten. Wir hoffen, dass GameplayQA zukünftige Forschung an der Schnittstelle von Embodied AI, agentic perception und world modeling stimuliert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp