HyperAIHyperAI

Command Palette

Search for a command to run...

Dual-Mode-Strategieoptimierung BPO

Datum

vor 2 Monaten

Organisation

Chinesische Akademie der Wissenschaften (Chinesische Akademie der Wissenschaften)
Tencent

Paper-URL

2508.21113

Die Bi-Mode Policy Optimization (BPO) wurde im August 2025 gemeinsam vom Tencent Hunyuan Team und der Chinesischen Akademie der Wissenschaften vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in dem Artikel „R-4B: Förderung der allgemeinen Auto-Thinking-Fähigkeit in MLLMs durch Bi-Mode-Annealing und Reinforce Learning".

BPO ist ein Reinforcement-Learning-Algorithmus für automatisiertes Denken. Im Gegensatz zu bestehenden Reinforcement-Learning-Methoden (RL), die komplexe Belohnungsfunktionen erfordern, stark datenabhängig sind oder anfällig für Hyperparameter-Sensitivität sind, nutzt BPO einfache, regelbasierte mathematische Belohnungen. Diese Methode erzwingt die Berücksichtigung sowohl von Denk- als auch von Nicht-Denkmodi und verhindert so, dass das Modell während des RL-Trainings auf einen bestimmten Modus ausgerichtet wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Dual-Mode-Strategieoptimierung BPO | Wiki | HyperAI