Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

PlayCoder: Playability von LLM-generiertem GUI-Code ermöglichen

TEMPO: Skalierung des Test-time Training für Large Reasoning Models































PlayCoder: Playability von LLM-generiertem GUI-Code ermöglichen

TEMPO: Skalierung des Test-time Training für Large Reasoning Models






























AnyRecon: Beliebige 3D-Rekonstruktion mittels eines Video-Diffusionsmodells
AgentSPEX: Eine Agent SPecification and EXecution Language
CoInteract: Physikalisch konsistente Video-Synthese von Human-Object-Interaktionen durch räumlich strukturierte Co-Generierung
Tstars-Tryon 1.0: Robustes und realistisches virtuelles Anprobieren für vielfältige Modeartikel
Schnelle NF4-Dequantization-Kernels für die Large Language Model Inferenz
EasyVideoR1: Einfacheres RL für das Video-Verständnis
MultiWorld: Skalierbare Multi-Agent Multi-View Video World Models
OpenGame: Offenes agentic Coding für Spiele
Agent-World: Skalierung der Synthese realweltlicher Umgebungen für eine sich entwickelnde allgemeine Agent Intelligence
OneVL: Einstufige latente Argumentation und Planung mit Vision-Language-Erklärung
Erweiterung der einstufigen Bildgenerierung von Klasslabels auf Text mittels diskriminativer Textrepräsentation
ScribblePrompt: Schnelle und flexible interaktive Segmentierung für beliebige biomedizinische Bilder
Long-VITA: Skalierung von Large Multi-modal Models auf 1 Million Tokens bei führender Genauigkeit in Kurzkontexten
UI-TARS: Pionierarbeit bei der automatisierten GUI-Interaktion mit nativen Agents
HunyuanVideo: Ein systematisches Framework für Large Video Generative Models
MathNet: Ein globaler multimodaler Benchmark für mathematisches Reasoning und Retrieval
Externalisierung in LLM Agents: Ein einheitlicher Review zu Memory, Skills, Protocols und Harness Engineering
Aktive Kontextkompression: Autonomes Memory-Management in LLM Agents
„Schneiden Sie Ihre Verluste ab! Lernen Sie das frühzeitige Pruning von Paths für effizientes paralleles Reasoning“
Qwen3.5-Omni Technischer Bericht
Web Retrieval-Aware Chunking (W-RAC) für effiziente und kostengünstige Retrieval-Augmented Generation Systeme
PersonaVLM: Langfristige personalisierte Multimodale LLMs
Ohne Daten oder Optimierung maximaler Gehirnschaden: Störung von Neural Networks durch Sign-Bit Flips
Aufklärung des SNR-t Bias von Diffusion Probabilistic Models
Multimodales OCR: Parse Anything aus Dokumenten
Granite-speech: Open-Source Speech-aware LLMs mit starken englischen ASR-Fähigkeiten
Fish-Speech: Nutzung von Large Language Models für fortschrittliche multilinguale Text-to-Speech-Synthese
Löschung von Videoobjekten und Interaktionen
VoxCPM: Tokenizer-freies TTS zur kontextbewussten Spracherzeugung und lebensnahen Voice Cloning
OmniVoice: Auf dem Weg zu omnilingualem Zero-Shot Text-to-Speech mittels Diffusion Language Models
AnyRecon: Beliebige 3D-Rekonstruktion mittels eines Video-Diffusionsmodells
AgentSPEX: Eine Agent SPecification and EXecution Language
CoInteract: Physikalisch konsistente Video-Synthese von Human-Object-Interaktionen durch räumlich strukturierte Co-Generierung
Tstars-Tryon 1.0: Robustes und realistisches virtuelles Anprobieren für vielfältige Modeartikel
Schnelle NF4-Dequantization-Kernels für die Large Language Model Inferenz
EasyVideoR1: Einfacheres RL für das Video-Verständnis
MultiWorld: Skalierbare Multi-Agent Multi-View Video World Models
OpenGame: Offenes agentic Coding für Spiele
Agent-World: Skalierung der Synthese realweltlicher Umgebungen für eine sich entwickelnde allgemeine Agent Intelligence
OneVL: Einstufige latente Argumentation und Planung mit Vision-Language-Erklärung
Erweiterung der einstufigen Bildgenerierung von Klasslabels auf Text mittels diskriminativer Textrepräsentation
ScribblePrompt: Schnelle und flexible interaktive Segmentierung für beliebige biomedizinische Bilder
Long-VITA: Skalierung von Large Multi-modal Models auf 1 Million Tokens bei führender Genauigkeit in Kurzkontexten
UI-TARS: Pionierarbeit bei der automatisierten GUI-Interaktion mit nativen Agents
HunyuanVideo: Ein systematisches Framework für Large Video Generative Models
MathNet: Ein globaler multimodaler Benchmark für mathematisches Reasoning und Retrieval
Externalisierung in LLM Agents: Ein einheitlicher Review zu Memory, Skills, Protocols und Harness Engineering
Aktive Kontextkompression: Autonomes Memory-Management in LLM Agents
„Schneiden Sie Ihre Verluste ab! Lernen Sie das frühzeitige Pruning von Paths für effizientes paralleles Reasoning“
Qwen3.5-Omni Technischer Bericht
Web Retrieval-Aware Chunking (W-RAC) für effiziente und kostengünstige Retrieval-Augmented Generation Systeme
PersonaVLM: Langfristige personalisierte Multimodale LLMs
Ohne Daten oder Optimierung maximaler Gehirnschaden: Störung von Neural Networks durch Sign-Bit Flips
Aufklärung des SNR-t Bias von Diffusion Probabilistic Models
Multimodales OCR: Parse Anything aus Dokumenten
Granite-speech: Open-Source Speech-aware LLMs mit starken englischen ASR-Fähigkeiten
Fish-Speech: Nutzung von Large Language Models für fortschrittliche multilinguale Text-to-Speech-Synthese
Löschung von Videoobjekten und Interaktionen
VoxCPM: Tokenizer-freies TTS zur kontextbewussten Spracherzeugung und lebensnahen Voice Cloning
OmniVoice: Auf dem Weg zu omnilingualem Zero-Shot Text-to-Speech mittels Diffusion Language Models