HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Dual-Mode-Strategieoptimierung BPO

Die Bi-Mode Policy Optimization (BPO) wurde im August 2025 gemeinsam vom Tencent Hunyuan Team und der Chinesischen Akademie der Wissenschaften vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in dem Artikel „R-4B: Förderung der allgemeinen Auto-Thinking-Fähigkeit in MLLMs durch Bi-Mode-Annealing und Reinforce Learning".

BPO ist ein Reinforcement-Learning-Algorithmus für automatisiertes Denken. Im Gegensatz zu bestehenden Reinforcement-Learning-Methoden (RL), die komplexe Belohnungsfunktionen erfordern, stark datenabhängig sind oder anfällig für Hyperparameter-Sensitivität sind, nutzt BPO einfache, regelbasierte mathematische Belohnungen. Diese Methode erzwingt die Berücksichtigung sowohl von Denk- als auch von Nicht-Denkmodi und verhindert so, dass das Modell während des RL-Trainings auf einen bestimmten Modus ausgerichtet wird.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp