Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Anti-Selbstdistillation für reasoning RL über punktweise gegenseitige Information

Gezielte Neuronenmodulation durch Suche nach kontrastiven Paaren































Anti-Selbstdistillation für reasoning RL über punktweise gegenseitige Information

Gezielte Neuronenmodulation durch Suche nach kontrastiven Paaren






























Continuous Diffusion Skaliert Wettbewerbsfähig Mit Diskreter Diffusion Für Sprache
KVPO: ODE-natives GRPO für autoregressive Videoausrichtung durch KV-semantische Exploration
Code-as-Room: Generieren von 3D-Räumen aus Draufsichtbildern durch agentic Code-Synthese
KI für die automatische Forschung: Fahrplan und Benutzerhandbuch
SkillsVote: Lebenszyklus-Steuerung von Agenten-Fähigkeiten von der Sammlung, Empfehlung bis zur Evolution
Lance: Einheitliches multimodales Modellieren durch Multi-Task-Synergie
LongLive-2.0: Eine NVFP4-Parallelinfrastruktur für die Generierung langer Videos
Aufschneiden und Würfel: Konfigurieren optimaler Gemische aus Experten
Agentengesteuerte Entdeckung neuronaler Architekturen: AIRA-Compose und AIRA-Design
Lernen, vorauszusehen: Enthüllung der Entschlüsselungseffizienz der On-Policy-Distillation
DexJoCo: Ein Benchmark und ein Toolkit für aufgabenorientierte geschickte Manipulation auf MuJoCo
FashionChameleon: Auf Echtzeit- und interaktive Mensch-Kleidungs-Videobearbeitung zusteuern
CiteVQA: Benchmarking der Evidenzzuschreibung für vertrauenswürdige Dokumentenintelligenz
MMSkills: Auf dem Weg zu multimodalen Fähigkeiten für allgemeine visuelle Agenten
PhysBrain 1.0 Technischer Bericht
Zurück zu den Wertmodellen: Generative Kritiker für die Wertmodellierung in der Verstärkungslernmethode von LLMs
NEXUS: Ein Agentenframework für die Zeitreihenvorhersage
MemEye: Ein visuell-zentriertes Bewertungsframework für Multimodal-Agent-Gedächtnis
SANA-WM: Effizientes Weltmodellieren im Minutenbereich mit hybridem linearem Diffusions-Transformer
MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen
Selbstdistillierte agentic Verstärkungslernen
Kausales Erzwingen++: Skalierbare autoregressive Diffusionsdistillation mit wenigen Schritten für die Echtzeit-Interaktive Videoerstellung
Erreichen von Goldmedaillen-Niveau bei Olympiaden-Reasoning durch einfaches und einheitliches Skalieren
RepoZero: Können LLMs ein Code-Repository von Grund auf erzeugen?
Qwen-Image-VAE-2.0 Technischer Bericht
Vorhersage von Entscheidungen von KI-Agents aus begrenzter Interaktion durch Text-Tabellarische Modellierung
Training von Lang-Kontext-Vision-Language-Modellen effektiv mit Verallgemeinerung über 128K Kontext hinaus
AnyFlow: Any-Step-Video-Diffusionsmodell mit On-Policy-Flow-Map-Distillation
MinT: Verwaltete Infrastruktur für das Training und den Betrieb von Millionen von LLMs
MulTaBench: Benchmarking multimodaler tabellarischer Lernverfahren mit Text und Bild
Continuous Diffusion Skaliert Wettbewerbsfähig Mit Diskreter Diffusion Für Sprache
KVPO: ODE-natives GRPO für autoregressive Videoausrichtung durch KV-semantische Exploration
Code-as-Room: Generieren von 3D-Räumen aus Draufsichtbildern durch agentic Code-Synthese
KI für die automatische Forschung: Fahrplan und Benutzerhandbuch
SkillsVote: Lebenszyklus-Steuerung von Agenten-Fähigkeiten von der Sammlung, Empfehlung bis zur Evolution
Lance: Einheitliches multimodales Modellieren durch Multi-Task-Synergie
LongLive-2.0: Eine NVFP4-Parallelinfrastruktur für die Generierung langer Videos
Aufschneiden und Würfel: Konfigurieren optimaler Gemische aus Experten
Agentengesteuerte Entdeckung neuronaler Architekturen: AIRA-Compose und AIRA-Design
Lernen, vorauszusehen: Enthüllung der Entschlüsselungseffizienz der On-Policy-Distillation
DexJoCo: Ein Benchmark und ein Toolkit für aufgabenorientierte geschickte Manipulation auf MuJoCo
FashionChameleon: Auf Echtzeit- und interaktive Mensch-Kleidungs-Videobearbeitung zusteuern
CiteVQA: Benchmarking der Evidenzzuschreibung für vertrauenswürdige Dokumentenintelligenz
MMSkills: Auf dem Weg zu multimodalen Fähigkeiten für allgemeine visuelle Agenten
PhysBrain 1.0 Technischer Bericht
Zurück zu den Wertmodellen: Generative Kritiker für die Wertmodellierung in der Verstärkungslernmethode von LLMs
NEXUS: Ein Agentenframework für die Zeitreihenvorhersage
MemEye: Ein visuell-zentriertes Bewertungsframework für Multimodal-Agent-Gedächtnis
SANA-WM: Effizientes Weltmodellieren im Minutenbereich mit hybridem linearem Diffusions-Transformer
MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen
Selbstdistillierte agentic Verstärkungslernen
Kausales Erzwingen++: Skalierbare autoregressive Diffusionsdistillation mit wenigen Schritten für die Echtzeit-Interaktive Videoerstellung
Erreichen von Goldmedaillen-Niveau bei Olympiaden-Reasoning durch einfaches und einheitliches Skalieren
RepoZero: Können LLMs ein Code-Repository von Grund auf erzeugen?
Qwen-Image-VAE-2.0 Technischer Bericht
Vorhersage von Entscheidungen von KI-Agents aus begrenzter Interaktion durch Text-Tabellarische Modellierung
Training von Lang-Kontext-Vision-Language-Modellen effektiv mit Verallgemeinerung über 128K Kontext hinaus
AnyFlow: Any-Step-Video-Diffusionsmodell mit On-Policy-Flow-Map-Distillation
MinT: Verwaltete Infrastruktur für das Training und den Betrieb von Millionen von LLMs
MulTaBench: Benchmarking multimodaler tabellarischer Lernverfahren mit Text und Bild