Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Calibri: Verbesserung von Diffusion-Transformern durch parameter-effiziente Kalibrierung

Intern-S1-Pro: Ein wissenschaftliches multimodales Grundmodell im Billionen-Skala-Bereich































Calibri: Verbesserung von Diffusion-Transformern durch parameter-effiziente Kalibrierung

Intern-S1-Pro: Ein wissenschaftliches multimodales Grundmodell im Billionen-Skala-Bereich






























PixelSmile: Auf dem Weg zu einer feinabgestimmten Bearbeitung von Gesichtsausdrücken
Claudini: Autoresearch entdeckt State-of-the-Art Adversarial Attack Algorithmen für LLMs
AutoHarness: Verbesserung von LLM Agents durch die automatische Synthese eines Code Harness
GameplayQA: Ein Benchmark-Framework für die verhaltensdichte, POV-synchrone Mehrvideo-Verständnisanalyse von 3D-Virtual Agents
Warum verschlechtert Self-Distillation (manchmal) die Reasoning-Fähigkeit von LLMs?
UI-Voyager: Ein sich selbst weiterentwickelnder GUI-Agent, der durch gescheiterte Erfahrungen lernt
T-MAP: Red-Teaming von LLM Agents mittels trajectoriewahrer evolutionärer Suche
CUA-Suite: Massiv annotierte Video-Demonstrationen durch Menschen für Computer-Use-Agenten
EVA: Effizientes Reinforcement Learning für End-to-End Video-Agenten
Foveated Diffusion: Effiziente räumlich adaptive Bild- und Videogenerierung
Ego2Web: Ein Web Agent Benchmark, der auf egozentrischen Videos basiert
Von statischen Vorlagen zu dynamischen Laufzeitgraphen: Eine Übersicht zur Workflow-Optimierung für LLM Agents
SpecEyes: Beschleunigung von Agentic Multimodalen LLMs durch spekulative Wahrnehmung und Planung
DA-Flow: Degradation-Aware Optical Flow Estimation mit Diffusion Models
PEARL: Personalisiertes Modell für das Streaming-Video-Verständnis
WildWorld: Ein groß angelegter Datensatz für die dynamische Modellierung der Welt mit Aktionen und explizitem Zustand zur Generierung von ARPGs
MinerU-Diffusion: Neukonzeptualisierung von Dokument-OCR als inverse Rendering-Aufgabe mittels Diffusion Decoding
PivotRL: Agentic Post-Training mit hoher Genauigkeit bei geringem Rechenaufwand
F4Splat: Feed-Forward Predictive Densification für Feed-Forward 3D Gaussian Splatting
SpatialBoost: Verbesserung der visuellen Repräsentation durch sprachgesteuertes Reasoning
VideoDetective: Spurensuche durch extrinsische Abfragen und intrinsische Relevanz für das Verständnis langer Videos
LongCat-Flash-Prover: Vorantreiben der nativen formalen Schlussfolgerung durch agentic tool-integriertes Reinforcement Learning
Geschwindigkeit durch Einfachheit: Eine Single-Stream-Architektur für ein schnelles Audio-Video-generatives Foundation Model
Omni-WorldBench: Hin zu einer umfassenden, interaktionszentrierten Evaluierung von World Models
PrismAudio: Zerlegtes Chain-of-Thought und mehrdimensionale Belohnungen für die Video-zu-Audio-Generierung
LeWorldModel: Stabile End-to-End-Joint-Embedding-Prädiktive Architektur auf Pixelebene
FlowScene: Stil-konsistente Erzeugung von Innenraumszenen mittels multimodaler Graphen-basierter Rectified Flow
LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung
Der Y-Kombinator für LLMs: Lösung des Long-Context-Rot-Problems mittels λ-Kalkül
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models
PixelSmile: Auf dem Weg zu einer feinabgestimmten Bearbeitung von Gesichtsausdrücken
Claudini: Autoresearch entdeckt State-of-the-Art Adversarial Attack Algorithmen für LLMs
AutoHarness: Verbesserung von LLM Agents durch die automatische Synthese eines Code Harness
GameplayQA: Ein Benchmark-Framework für die verhaltensdichte, POV-synchrone Mehrvideo-Verständnisanalyse von 3D-Virtual Agents
Warum verschlechtert Self-Distillation (manchmal) die Reasoning-Fähigkeit von LLMs?
UI-Voyager: Ein sich selbst weiterentwickelnder GUI-Agent, der durch gescheiterte Erfahrungen lernt
T-MAP: Red-Teaming von LLM Agents mittels trajectoriewahrer evolutionärer Suche
CUA-Suite: Massiv annotierte Video-Demonstrationen durch Menschen für Computer-Use-Agenten
EVA: Effizientes Reinforcement Learning für End-to-End Video-Agenten
Foveated Diffusion: Effiziente räumlich adaptive Bild- und Videogenerierung
Ego2Web: Ein Web Agent Benchmark, der auf egozentrischen Videos basiert
Von statischen Vorlagen zu dynamischen Laufzeitgraphen: Eine Übersicht zur Workflow-Optimierung für LLM Agents
SpecEyes: Beschleunigung von Agentic Multimodalen LLMs durch spekulative Wahrnehmung und Planung
DA-Flow: Degradation-Aware Optical Flow Estimation mit Diffusion Models
PEARL: Personalisiertes Modell für das Streaming-Video-Verständnis
WildWorld: Ein groß angelegter Datensatz für die dynamische Modellierung der Welt mit Aktionen und explizitem Zustand zur Generierung von ARPGs
MinerU-Diffusion: Neukonzeptualisierung von Dokument-OCR als inverse Rendering-Aufgabe mittels Diffusion Decoding
PivotRL: Agentic Post-Training mit hoher Genauigkeit bei geringem Rechenaufwand
F4Splat: Feed-Forward Predictive Densification für Feed-Forward 3D Gaussian Splatting
SpatialBoost: Verbesserung der visuellen Repräsentation durch sprachgesteuertes Reasoning
VideoDetective: Spurensuche durch extrinsische Abfragen und intrinsische Relevanz für das Verständnis langer Videos
LongCat-Flash-Prover: Vorantreiben der nativen formalen Schlussfolgerung durch agentic tool-integriertes Reinforcement Learning
Geschwindigkeit durch Einfachheit: Eine Single-Stream-Architektur für ein schnelles Audio-Video-generatives Foundation Model
Omni-WorldBench: Hin zu einer umfassenden, interaktionszentrierten Evaluierung von World Models
PrismAudio: Zerlegtes Chain-of-Thought und mehrdimensionale Belohnungen für die Video-zu-Audio-Generierung
LeWorldModel: Stabile End-to-End-Joint-Embedding-Prädiktive Architektur auf Pixelebene
FlowScene: Stil-konsistente Erzeugung von Innenraumszenen mittels multimodaler Graphen-basierter Rectified Flow
LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung
Der Y-Kombinator für LLMs: Lösung des Long-Context-Rot-Problems mittels λ-Kalkül
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models