HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Schlussfolgern über Grenzen: Verbesserung der Spezifikationsausrichtung durch testzeitliche Deliberation

Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

Schlussfolgern über Grenzen: Verbesserung der Spezifikationsausrichtung durch testzeitliche Deliberation

Abstract

Große Sprachmodelle (LLMs) werden zunehmend in vielfältigen realen Anwendungsszenarien eingesetzt, die jeweils durch maßgeschneiderte Verhaltens- und Sicherheitsspezifikationen („spec“) bestimmt sind, die von Nutzern oder Organisationen individuell angepasst werden. Diese Spezifikationen lassen sich in Sicherheits- und Verhaltensspezifikationen unterteilen, variieren je nach Szenario und entwickeln sich mit sich ändernden Präferenzen und Anforderungen weiter. Wir formalisieren diese Herausforderung als Spezifikationsausrichtung (specification alignment) und konzentrieren uns dabei auf die Fähigkeit von LLMs, dynamische, szenarienspezifische Spezifikationen aus sowohl verhaltens- als auch sicherheitsbezogener Perspektive zu erfüllen. Um dieser Herausforderung zu begegnen, stellen wir Align3 vor, eine leichtgewichtige Methode, die Test-Time-Deliberation (TTD) mit hierarchischer Reflexion und Überarbeitung nutzt, um die Grenzen der Spezifikationen zu analysieren. Darüber hinaus präsentieren wir SpecBench, eine einheitliche Benchmark zur Messung der Spezifikationsausrichtung, die fünf Szenarien, 103 Spezifikationen und 1.500 Prompts umfasst. Experimente mit 15 Reasoning- und 18 Instruktionsmodellen unter Verwendung mehrerer TTD-Methoden – darunter Self-Refine, TPO und MoreThink – ergeben drei zentrale Erkenntnisse: (i) Die Test-Time-Deliberation verbessert die Spezifikationsausrichtung; (ii) Align3 erweitert die Grenze zwischen Sicherheit und Nutzen mit minimalen Zusatzkosten; (iii) SpecBench ermöglicht effektiv die Identifizierung von Ausrichtungslücken. Diese Ergebnisse unterstreichen das Potenzial der Test-Time-Deliberation als wirksame Strategie zur Bewältigung realwelttypischer Spezifikationsgrenzen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Schlussfolgern über Grenzen: Verbesserung der Spezifikationsausrichtung durch testzeitliche Deliberation | Forschungsarbeiten | HyperAI