Command Palette
Search for a command to run...
Dual-Mode-Strategieoptimierung BPO
Die Bi-Mode Policy Optimization (BPO) wurde im August 2025 gemeinsam vom Tencent Hunyuan Team und der Chinesischen Akademie der Wissenschaften vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in dem Artikel „R-4B: Förderung der allgemeinen Auto-Thinking-Fähigkeit in MLLMs durch Bi-Mode-Annealing und Reinforce Learning".
BPO ist ein Reinforcement-Learning-Algorithmus für automatisiertes Denken. Im Gegensatz zu bestehenden Reinforcement-Learning-Methoden (RL), die komplexe Belohnungsfunktionen erfordern, stark datenabhängig sind oder anfällig für Hyperparameter-Sensitivität sind, nutzt BPO einfache, regelbasierte mathematische Belohnungen. Diese Methode erzwingt die Berücksichtigung sowohl von Denk- als auch von Nicht-Denkmodi und verhindert so, dass das Modell während des RL-Trainings auf einen bestimmten Modus ausgerichtet wird.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.