Dual-Mode-Strategieoptimierung BPO
Date
Paper URL
Die Bi-Mode Policy Optimization (BPO) wurde im August 2025 gemeinsam vom Tencent Hunyuan Team und der Chinesischen Akademie der Wissenschaften vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in dem Artikel „R-4B: Förderung der allgemeinen Auto-Thinking-Fähigkeit in MLLMs durch Bi-Mode-Annealing und Reinforce Learning".
BPO ist ein Reinforcement-Learning-Algorithmus für automatisiertes Denken. Im Gegensatz zu bestehenden Reinforcement-Learning-Methoden (RL), die komplexe Belohnungsfunktionen erfordern, stark datenabhängig sind oder anfällig für Hyperparameter-Sensitivität sind, nutzt BPO einfache, regelbasierte mathematische Belohnungen. Diese Methode erzwingt die Berücksichtigung sowohl von Denk- als auch von Nicht-Denkmodi und verhindert so, dass das Modell während des RL-Trainings auf einen bestimmten Modus ausgerichtet wird.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.