HyperAIHyperAI

Command Palette

Search for a command to run...

BeSafe-Bench: Aufdeckung von Verhaltenssicherheitsrisiken situierter Agenten in funktionalen Umgebungen

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

Zusammenfassung

Die rasante Entwicklung von Large Multimodal Models (LMMs) hat es Agenten ermöglicht, komplexe digitale und physische Aufgaben auszuführen. Dennoch birgt ihr Einsatz als autonome Entscheidungsträger erhebliche unbeabsichtigte Risiken für das Verhaltenssicherheit. Ein wesentlicher Engpass bleibt jedoch das Fehlen eines umfassenden Sicherheits-Benchmarks, da bestehende Evaluierungen auf Umgebungen mit niedriger Fidelity, simulierten APIs oder eng gefassten Aufgaben basieren. Um diese Lücke zu schließen, stellen wir BeSafe-Bench (BSB) vor: einen Benchmark zur Aufdeckung von Verhaltenssicherheitsrisiken situiert agierender Agenten in funktionalen Umgebungen, der vier repräsentative Domänen abdeckt: Web, Mobile, Embodied VLM und Embodied VLA. Mithilfe funktionaler Umgebungen konstruieren wir einen vielfältigen Instruktionsraum, indem wir Aufgaben um neun Kategorien sicherheitskritischer Risiken erweitern, und führen ein hybrides Evaluierungsframework ein, das regelbasierte Prüfungen mit der reasoning-Fähigkeit eines LLM-as-a-judge kombiniert, um reale Umweltauswirkungen zu bewerten. Die Evaluierung von 13 weit verbreiteten Agenten offenbart ein besorgniserregendes Trend: Selbst der leistungsfähigste Agent erfüllt weniger als 40 % der Aufgaben unter vollständiger Einhaltung der Sicherheitsbedingungen, und eine starke Aufgabenerfüllung geht häufig mit gravierenden Sicherheitsverstößen einher. Diese Erkenntnisse unterstreichen die dringende Notwendigkeit einer verbesserten Sicherheitsausrichtung (safety alignment), bevor agierende Systeme in realen Umgebungen eingesetzt werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp