Command Palette
Search for a command to run...
GameplayQA: Ein Benchmark-Framework für die verhaltensdichte, POV-synchrone Mehrvideo-Verständnisanalyse von 3D-Virtual Agents
GameplayQA: Ein Benchmark-Framework für die verhaltensdichte, POV-synchrone Mehrvideo-Verständnisanalyse von 3D-Virtual Agents
Yunzhe Wang Runhui Xu Kexin Zheng Tianyi Zhang Jayavibhav Niranjan Kogundi Soham Hans Volkan Ustun
Zusammenfassung
Multimodale LLMs werden zunehmend als perzeptive Backbones für autonome Agenten in 3D-Umgebungen eingesetzt, von der Robotik bis hin zu virtuellen Welten. Diese Anwendungen erfordern, dass Agenten rasche Zustandsänderungen wahrnehmen, Aktionen den korrekten Entitäten zuordnen und aus einer Ich-Perspektive über gleichzeitige Multi-Agenten-Verhalten reasoning können – Fähigkeiten, die von bestehenden Benchmarks unzureichend evaluiert werden. Wir stellen GameplayQA vor, ein Framework zur Evaluierung agentic-zentrierter Perzeption und Reasoning durch Videoverständnis. Konkret annotieren wir Multiplayer-3D-Gameplay-Videos dicht mit einer Rate von 1,22 Labels pro Sekunde und versehen sie mit zeitlich synchronisierten, gleichzeitigen Beschreibungen von Zuständen, Aktionen und Ereignissen, die um ein triadisches System aus Self, Other Agents und World strukturiert sind – eine natürliche Zerlegung für Multi-Agenten-Umgebungen. Aus diesen Annotationen leiteten wir 2.400 diagnostische QA-Paare ab, die in drei Ebenen kognitiver Komplexität organisiert sind, begleitet von einer strukturierten Taxonomie von Distraktoren, die eine feingranulare Analyse von Halluzinationen in Modellen ermöglicht. Die Evaluierung führender MLLMs zeigt eine erhebliche Lücke zur menschlichen Leistung auf, wobei häufige Fehler in der temporalen und videoübergreifenden Grounding, der Zuordnung von Agentenrollen sowie im Umgang mit der Entscheidungsdichte des Spiels auftreten. Wir hoffen, dass GameplayQA zukünftige Forschung an der Schnittstelle von Embodied AI, agentic perception und world modeling stimuliert.