Datum

vor 7 Monaten

Organisation

Paper-URL

2504.19599

Tags

Die Gruppenvarianz-Richtlinienoptimierung (GVPO) wurde im April 2025 vom Team um Zuoyebang in Zusammenarbeit mit der Hong Kong University of Science and Technology (Guangzhou) vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in der Arbeit "..." veröffentlicht.GVPO: Gruppenvarianz-Richtlinienoptimierung für das Nachtraining großer Sprachmodelle", wurde von NeurIPS 2025 angenommen.

GVPO integriert die analytische Lösung für die KL-beschränkte Belohnungsmaximierung direkt in seine Gradientengewichte und gewährleistet so die Konsistenz mit der optimalen Strategie. Diese Methode bietet eine intuitive physikalische Interpretation: Ihr Gradient spiegelt den mittleren quadratischen Fehler zwischen der impliziten und der tatsächlichen Entfernung zum Belohnungszentrum wider. GVPO bietet zwei entscheidende Vorteile: Erstens garantiert es eine eindeutige optimale Lösung, nämlich die KL-beschränkte Belohnungsmaximierung; zweitens unterstützt es flexible Stichprobenverteilungen und vermeidet so die durch Strategie und Importance Sampling bedingten Einschränkungen.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Datum

vor 7 Monaten

Organisation

Paper-URL

2504.19599

Verwandt Wiki

Zerlegter Vorwärtspass (DePass)

DePass wird verwendet, um das Transformer-Modell durch Zerlegung des Vorwärtsdurchlaufs zu interpretieren.

vor 3 Monaten

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

Es löst effektiv die wichtigsten Herausforderungen bei der sicheren Ausrichtung von LVLM.

vor 3 Monaten

Strategie Der Mittleren Geschwindigkeit (MVP)

MVP erreicht die Generierung von Einzelschrittaktionen mit sowohl hoher Ausdruckskraft als auch extrem schneller Berechnung durch Modellierung des durchschnittlichen Geschwindigkeitsfeldes.

vor 2 Monaten

SoCE-Klassenexpertensuppe

SoCE ist ein Modelloptimierungsparadigma, das auf einem automatischen, kategorienorientierten Expertenauswahlmechanismus basiert und mit mehreren Benchmark-Aufgaben kombiniert wird.

vor 3 Monaten

Sparse-Code-Baum-Dekodierungsbaum-Skizzierung

Durch die Nutzung von GPU-Parallelität zur effizienten Erweiterung des Dekodierungsbaums wird eine schnelle und skalierbare Optimierung des Inferenzpfads erreicht.

vor 3 Monaten

iSeal-Fingerabdruckerkennungsmethode

iSeal erzielt eine Fingerabdruck-Erfolgsrate (FSR) von 100% gegen mehr als 10 Angriffe auf 12 LLMs.

vor 3 Monaten

Weltaktionsmodell WAM

WAM ist eine neue KI-Grundlagenmodellarchitektur für die Bereiche verkörperte Intelligenz und Robotik.

vor einem Monat

WorldGen

WorldGen ist in der Lage, geometrisch einheitliche, visuell reichhaltige und hocheffiziente Echtzeit-Rendering-Welten zu erzeugen.

vor 3 Monaten

Modell Suppen

Durch Model Souping kann ein besseres Modell erzeugt werden, indem die Gewichte mehrerer Feinabstimmungen gemittelt werden.

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Gruppenvarianzstrategieoptimierung (GVPO)

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Gruppenvarianzstrategieoptimierung (GVPO)

Verwandt Wiki

Zerlegter Vorwärtspass (DePass)

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

Strategie Der Mittleren Geschwindigkeit (MVP)

SoCE-Klassenexpertensuppe

Sparse-Code-Baum-Dekodierungsbaum-Skizzierung

iSeal-Fingerabdruckerkennungsmethode

Weltaktionsmodell WAM

WorldGen

Modell Suppen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Gruppenvarianzstrategieoptimierung (GVPO)

Verwandt Wiki

Zerlegter Vorwärtspass (DePass)

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

Strategie Der Mittleren Geschwindigkeit (MVP)

SoCE-Klassenexpertensuppe

Sparse-Code-Baum-Dekodierungsbaum-Skizzierung

iSeal-Fingerabdruckerkennungsmethode

Weltaktionsmodell WAM

WorldGen

Modell Suppen

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Wiki

Zerlegter Vorwärtspass (DePass)

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

Strategie Der Mittleren Geschwindigkeit (MVP)

SoCE-Klassenexpertensuppe

Sparse-Code-Baum-Dekodierungsbaum-Skizzierung

iSeal-Fingerabdruckerkennungsmethode

Weltaktionsmodell WAM

WorldGen

Modell Suppen

Verwandt Wiki

Zerlegter Vorwärtspass (DePass)

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

Strategie Der Mittleren Geschwindigkeit (MVP)

SoCE-Klassenexpertensuppe

Sparse-Code-Baum-Dekodierungsbaum-Skizzierung

iSeal-Fingerabdruckerkennungsmethode

Weltaktionsmodell WAM

WorldGen

Modell Suppen