Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Wie lernen große Sprachmodelle Konzepte während der kontinuierlichen Vortrainierung?

JudgeRLVR: Zuerst bewerten, dann generieren für effiziente Inferenz































Wie lernen große Sprachmodelle Konzepte während der kontinuierlichen Vortrainierung?

JudgeRLVR: Zuerst bewerten, dann generieren für effiziente Inferenz






























SnapGen++: Freisetzen von Diffusion Transformers für effiziente, hochfidele Bildgenerierung auf Edge-Geräten
VLingNav: Embodied Navigation mit adaptivem Reasoning und visuell unterstütztem linguistic Memory
Ministral 3
Lernen latenter Handlungs-Weltmodelle in der Wildnis
Dr. Zero: Selbstentwickelnde Suchagenten ohne Trainingsdaten
MHLA: Wiederherstellung der Ausdruckskraft linearer Aufmerksamkeit mittels token-basierter Multi-Head-Ansätze
GlimpRouter: Effiziente kooperative Inferenz durch das Erkennen eines Tokens von Gedanken
X-Coder: Fortschritte im Wettbewerbsprogrammieren durch vollständig synthetische Aufgaben, Lösungen und Tests
PaCoRe: Lernen des Skalierens von Testzeit-Rechenleistung mittels paralleler koordinierter Reasoning
BabyVision: Visuelle Schlussfolgerung jenseits von Sprache
Beobachten, Schlussfolgern und Suchen: Ein Video-Tiefenforschungsbenchmark für offene Web für agente Video-Reasoning
Bedingte Speicherung durch skalierbare Suche: Eine neue Dimension der Sparsamkeit für große Sprachmodelle
EnvScaler: Skalierungswerkzeug-interaktiver Umgebungen für LLM-Agenten durch programmatische Synthese
Evidence verketten: Robuste Verstärkendes Lernen für Deep Search Agents mit zitierungsorientierten Bewertungskriterien
CaricatureGS: 3D-Gaußsche Splatting-Gesichter mit gaußscher Krümmung exaggerieren
Die molekulare Struktur des Denkens: Kartierung der Topologie von Langen Ketten-des-Denkens-Reasoning
MMFormalizer: Multimodale Autoformalisierung in der Wildheit
Denken mit Karte: Verstärkter paralleler kartenverstärkter Agent für die Geolokalisierung
Einbrechen der Sortierbarriere für gerichtete Einzelquellen-Kürzeste-Wege
GR-Dexter Technischer Bericht
VideoAuto-R1: Video-Auto-Reasoning durch ein einziges Denken, zwei Antworten
RelayLLM: Effizientes Reasoning durch kooperatives Decoding
Token-Level LLM-Kooperation über FusionRoute
RL-AWB: Deep Reinforcement Learning für die automatische Farbkorrektur bei niedrigen Lichtverhältnissen in Nachtszenen
Lernbare Multiplikatoren: Freisetzen der Skala von Sprachmodell-Matrixschichten
GDPO: Gruppenbelohnungs-entkoppelte Normalisierung Policy Optimization für die Multi-Belohnungs-RL-Optimierung
MemRL: Selbstentwickelnde Agenten durch Laufzeitverstärkendes Lernen auf episodischem Gedächtnis
Von der Fehlerhaftigkeit zur Meisterschaft: Generierung schwieriger Beispiele für Werkzeugnutzungs-Agenten
Choreographie einer Welt dynamischer Objekte
Klear: Einheitliche multimodale Aufgaben-Generierung für Audio-Video
SnapGen++: Freisetzen von Diffusion Transformers für effiziente, hochfidele Bildgenerierung auf Edge-Geräten
VLingNav: Embodied Navigation mit adaptivem Reasoning und visuell unterstütztem linguistic Memory
Ministral 3
Lernen latenter Handlungs-Weltmodelle in der Wildnis
Dr. Zero: Selbstentwickelnde Suchagenten ohne Trainingsdaten
MHLA: Wiederherstellung der Ausdruckskraft linearer Aufmerksamkeit mittels token-basierter Multi-Head-Ansätze
GlimpRouter: Effiziente kooperative Inferenz durch das Erkennen eines Tokens von Gedanken
X-Coder: Fortschritte im Wettbewerbsprogrammieren durch vollständig synthetische Aufgaben, Lösungen und Tests
PaCoRe: Lernen des Skalierens von Testzeit-Rechenleistung mittels paralleler koordinierter Reasoning
BabyVision: Visuelle Schlussfolgerung jenseits von Sprache
Beobachten, Schlussfolgern und Suchen: Ein Video-Tiefenforschungsbenchmark für offene Web für agente Video-Reasoning
Bedingte Speicherung durch skalierbare Suche: Eine neue Dimension der Sparsamkeit für große Sprachmodelle
EnvScaler: Skalierungswerkzeug-interaktiver Umgebungen für LLM-Agenten durch programmatische Synthese
Evidence verketten: Robuste Verstärkendes Lernen für Deep Search Agents mit zitierungsorientierten Bewertungskriterien
CaricatureGS: 3D-Gaußsche Splatting-Gesichter mit gaußscher Krümmung exaggerieren
Die molekulare Struktur des Denkens: Kartierung der Topologie von Langen Ketten-des-Denkens-Reasoning
MMFormalizer: Multimodale Autoformalisierung in der Wildheit
Denken mit Karte: Verstärkter paralleler kartenverstärkter Agent für die Geolokalisierung
Einbrechen der Sortierbarriere für gerichtete Einzelquellen-Kürzeste-Wege
GR-Dexter Technischer Bericht
VideoAuto-R1: Video-Auto-Reasoning durch ein einziges Denken, zwei Antworten
RelayLLM: Effizientes Reasoning durch kooperatives Decoding
Token-Level LLM-Kooperation über FusionRoute
RL-AWB: Deep Reinforcement Learning für die automatische Farbkorrektur bei niedrigen Lichtverhältnissen in Nachtszenen
Lernbare Multiplikatoren: Freisetzen der Skala von Sprachmodell-Matrixschichten
GDPO: Gruppenbelohnungs-entkoppelte Normalisierung Policy Optimization für die Multi-Belohnungs-RL-Optimierung
MemRL: Selbstentwickelnde Agenten durch Laufzeitverstärkendes Lernen auf episodischem Gedächtnis
Von der Fehlerhaftigkeit zur Meisterschaft: Generierung schwieriger Beispiele für Werkzeugnutzungs-Agenten
Choreographie einer Welt dynamischer Objekte
Klear: Einheitliche multimodale Aufgaben-Generierung für Audio-Video