Command Palette
Search for a command to run...
BeSafe-Bench: Aufdeckung von Verhaltenssicherheitsrisiken situierter Agenten in funktionalen Umgebungen
BeSafe-Bench: Aufdeckung von Verhaltenssicherheitsrisiken situierter Agenten in funktionalen Umgebungen
Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei
Zusammenfassung
Die rasante Entwicklung von Large Multimodal Models (LMMs) hat es Agenten ermöglicht, komplexe digitale und physische Aufgaben auszuführen. Dennoch birgt ihr Einsatz als autonome Entscheidungsträger erhebliche unbeabsichtigte Risiken für das Verhaltenssicherheit. Ein wesentlicher Engpass bleibt jedoch das Fehlen eines umfassenden Sicherheits-Benchmarks, da bestehende Evaluierungen auf Umgebungen mit niedriger Fidelity, simulierten APIs oder eng gefassten Aufgaben basieren. Um diese Lücke zu schließen, stellen wir BeSafe-Bench (BSB) vor: einen Benchmark zur Aufdeckung von Verhaltenssicherheitsrisiken situiert agierender Agenten in funktionalen Umgebungen, der vier repräsentative Domänen abdeckt: Web, Mobile, Embodied VLM und Embodied VLA. Mithilfe funktionaler Umgebungen konstruieren wir einen vielfältigen Instruktionsraum, indem wir Aufgaben um neun Kategorien sicherheitskritischer Risiken erweitern, und führen ein hybrides Evaluierungsframework ein, das regelbasierte Prüfungen mit der reasoning-Fähigkeit eines LLM-as-a-judge kombiniert, um reale Umweltauswirkungen zu bewerten. Die Evaluierung von 13 weit verbreiteten Agenten offenbart ein besorgniserregendes Trend: Selbst der leistungsfähigste Agent erfüllt weniger als 40 % der Aufgaben unter vollständiger Einhaltung der Sicherheitsbedingungen, und eine starke Aufgabenerfüllung geht häufig mit gravierenden Sicherheitsverstößen einher. Diese Erkenntnisse unterstreichen die dringende Notwendigkeit einer verbesserten Sicherheitsausrichtung (safety alignment), bevor agierende Systeme in realen Umgebungen eingesetzt werden.