HyperAIHyperAI

Command Palette

Search for a command to run...

Dual-Mode-Strategieoptimierung BPO

Die Bi-Mode Policy Optimization (BPO) wurde im August 2025 gemeinsam vom Tencent Hunyuan Team und der Chinesischen Akademie der Wissenschaften vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in dem Artikel „R-4B: Förderung der allgemeinen Auto-Thinking-Fähigkeit in MLLMs durch Bi-Mode-Annealing und Reinforce Learning".

BPO ist ein Reinforcement-Learning-Algorithmus für automatisiertes Denken. Im Gegensatz zu bestehenden Reinforcement-Learning-Methoden (RL), die komplexe Belohnungsfunktionen erfordern, stark datenabhängig sind oder anfällig für Hyperparameter-Sensitivität sind, nutzt BPO einfache, regelbasierte mathematische Belohnungen. Diese Methode erzwingt die Berücksichtigung sowohl von Denk- als auch von Nicht-Denkmodi und verhindert so, dass das Modell während des RL-Trainings auf einen bestimmten Modus ausgerichtet wird.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp