Datum

vor 2 Monaten

Organisation

Paper-URL

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Datum

vor 2 Monaten

Organisation

Paper-URL

2505.12366

Verwandt Wiki

Gedankenketten-Hijacking

CoT Hijacking ist eine neuartige Jailbreak-Angriffsmethode, bei der gutartige Argumentation das Ablehnungsverhalten systematisch schwächt.

vor 2 Monaten

Gruppenvarianzstrategieoptimierung (GVPO)

Angesichts der Einschränkungen bestehender Feinabstimmungstechniken wie GRPO hat sich GVPO als zuverlässiges und vielseitiges Nachbearbeitungsparadigma etabliert.

vor 3 Monaten

HiPO Hybridstrategie-Optimierungsrahmen

HiPO wird für adaptive LLM-Inferenz verwendet, insbesondere für hybride Datenkonstruktion und hybrides Reinforcement Learning.

vor 2 Monaten

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

AEPO konzentriert sich auf das Ausbalancieren und Rationalisieren von Strategieerweiterungszweigen und Strategieaktualisierungen unter der Führung von Tool-Aufrufen mit hoher Entropie.

vor 2 Monaten

Gesteuerte Aufmerksamkeit

Das Team um Tongyi Qianwen untersuchte systematisch die Rolle von Gating-Mechanismen bei der Standard-Softmax-Aufmerksamkeit.

vor 2 Monaten

Multiagenten-Workflow CudaForge

CudaForge ist ein einfacher, effektiver und kostengünstiger Multiagenten-Workflow zur CUDA-Kernelgenerierung und -optimierung.

vor 2 Monaten

ReinFlow, Ein Online-Framework Für Verstärktes Lernen

ReinFlow zeichnet sich durch eine schlanke Implementierung, integrierte Explorationsfunktionen und eine breite Anwendbarkeit auf verschiedene Streaming-Strategievarianten aus.

vor 3 Monaten

Layout-Steuerungsframework InstanceAssemble

InstanceAssemble ermöglicht die Erzeugung hochwertiger und kontrollierbarer Bilder unter multimodalen Bedingungen.

vor 2 Monaten

DexFlyWheel-Datengenerierungsframework

DexFlyWheel ist ein skalierbares und sich selbst verbesserndes Datengenerierungsparadigma für agile Prozesse.

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

Verwandt Wiki

Gedankenketten-Hijacking

Gruppenvarianzstrategieoptimierung (GVPO)

HiPO Hybridstrategie-Optimierungsrahmen

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

Gesteuerte Aufmerksamkeit

Multiagenten-Workflow CudaForge

ReinFlow, Ein Online-Framework Für Verstärktes Lernen

Layout-Steuerungsframework InstanceAssemble

DexFlyWheel-Datengenerierungsframework

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

Verwandt Wiki

Gedankenketten-Hijacking

Gruppenvarianzstrategieoptimierung (GVPO)

HiPO Hybridstrategie-Optimierungsrahmen

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

Gesteuerte Aufmerksamkeit

Multiagenten-Workflow CudaForge

ReinFlow, Ein Online-Framework Für Verstärktes Lernen

Layout-Steuerungsframework InstanceAssemble

DexFlyWheel-Datengenerierungsframework

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Wiki

Gedankenketten-Hijacking

Gruppenvarianzstrategieoptimierung (GVPO)

HiPO Hybridstrategie-Optimierungsrahmen

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

Gesteuerte Aufmerksamkeit

Multiagenten-Workflow CudaForge

ReinFlow, Ein Online-Framework Für Verstärktes Lernen

Layout-Steuerungsframework InstanceAssemble

DexFlyWheel-Datengenerierungsframework

Verwandt Wiki

Gedankenketten-Hijacking

Gruppenvarianzstrategieoptimierung (GVPO)

HiPO Hybridstrategie-Optimierungsrahmen

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

Gesteuerte Aufmerksamkeit

Multiagenten-Workflow CudaForge

ReinFlow, Ein Online-Framework Für Verstärktes Lernen

Layout-Steuerungsframework InstanceAssemble

DexFlyWheel-Datengenerierungsframework