vor einem Tag

Zusammenfassung

Die rasante Entwicklung von Large Multimodal Models (LMMs) hat es Agenten ermöglicht, komplexe digitale und physische Aufgaben auszuführen. Dennoch birgt ihr Einsatz als autonome Entscheidungsträger erhebliche unbeabsichtigte Risiken für das Verhaltenssicherheit. Ein wesentlicher Engpass bleibt jedoch das Fehlen eines umfassenden Sicherheits-Benchmarks, da bestehende Evaluierungen auf Umgebungen mit niedriger Fidelity, simulierten APIs oder eng gefassten Aufgaben basieren. Um diese Lücke zu schließen, stellen wir BeSafe-Bench (BSB) vor: einen Benchmark zur Aufdeckung von Verhaltenssicherheitsrisiken situiert agierender Agenten in funktionalen Umgebungen, der vier repräsentative Domänen abdeckt: Web, Mobile, Embodied VLM und Embodied VLA. Mithilfe funktionaler Umgebungen konstruieren wir einen vielfältigen Instruktionsraum, indem wir Aufgaben um neun Kategorien sicherheitskritischer Risiken erweitern, und führen ein hybrides Evaluierungsframework ein, das regelbasierte Prüfungen mit der reasoning-Fähigkeit eines LLM-as-a-judge kombiniert, um reale Umweltauswirkungen zu bewerten. Die Evaluierung von 13 weit verbreiteten Agenten offenbart ein besorgniserregendes Trend: Selbst der leistungsfähigste Agent erfüllt weniger als 40 % der Aufgaben unter vollständiger Einhaltung der Sicherheitsbedingungen, und eine starke Aufgabenerfüllung geht häufig mit gravierenden Sicherheitsverstößen einher. Diese Erkenntnisse unterstreichen die dringende Notwendigkeit einer verbesserten Sicherheitsausrichtung (safety alignment), bevor agierende Systeme in realen Umgebungen eingesetzt werden.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor einem Tag

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor einem Tag

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

BeSafe-Bench: Aufdeckung von Verhaltenssicherheitsrisiken situierter Agenten in funktionalen Umgebungen

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

BeSafe-Bench: Aufdeckung von Verhaltenssicherheitsrisiken situierter Agenten in funktionalen Umgebungen

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

BeSafe-Bench: Aufdeckung von Verhaltenssicherheitsrisiken situierter Agenten in funktionalen Umgebungen

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters