Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Multimodales OCR: Parse Anything aus Dokumenten

Granite-speech: Open-Source Speech-aware LLMs mit starken englischen ASR-Fähigkeiten































Multimodales OCR: Parse Anything aus Dokumenten

Granite-speech: Open-Source Speech-aware LLMs mit starken englischen ASR-Fähigkeiten






























Fish-Speech: Nutzung von Large Language Models für fortschrittliche multilinguale Text-to-Speech-Synthese
Löschung von Videoobjekten und Interaktionen
VoxCPM: Tokenizer-freies TTS zur kontextbewussten Spracherzeugung und lebensnahen Voice Cloning
OmniVoice: Auf dem Weg zu omnilingualem Zero-Shot Text-to-Speech mittels Diffusion Language Models
Wo Vision zu Text wird: Lokalisierung des OCR-Routing-Bottlenecks in Vision-Language Models
OCR oder nicht? Überdenken der Informationsextraktion aus Dokumenten im Zeitalter von MLLMs unter Verwendung von groß angelegten Datensätzen aus der realen Welt
dnaHNet: Ein skalierbares und hierarchisches Foundation Model für das Lernen genomischer Sequenzen
Neuronale Computer
ASGuard: Activation-Scaling Guard zur Abmilderung gezielter Jailbreaking Attacks
GlobalSplat: Effizientes Feed-Forward 3D Gaussian Splatting durch globale Scene Tokens
Wie lässt sich ein Reasoning Model fine-tunen? Ein Teacher-Student-Kooperationsframework zur Synthese von Student-consistent SFT-Daten
RAD-2: Skalierung von Reinforcement Learning in einem Generator-Discriminator-Framework
DR3-Eval: Auf dem Weg zu einer realistischen und reproduzierbaren Deep Research Evaluation
HY-World 2.0: Ein Multi-Modal World Model zur Rekonstruktion, Generierung und Simulation von 3D-Welten
pi0.7: Ein steuerbares generelles robotisches Foundation Model mit emergenten Fähigkeiten
GTR: Guided Thought Reinforcement verhindert den Thought Collapse beim Training von RL-basierten VLM Agenten
Agent-Fähigkeiten für Large Language Models: Architektur, Akquisition, Sicherheit und zukünftige Entwicklungen
Raumtheorie: Können Foundation Models durch aktive Exploration räumliche Überzeugungen konstruieren?
Gedächtnis-Transfer Learning: Wie Erinnerungen über Domänen hinweg in Coding Agents übertragen werden
OccuBench: Evaluierung von AI Agents bei realen professionellen Aufgaben mittels Language World Models
SpatialEvo: Selbstentwickelnde räumliche Intelligenz durch deterministische geometrische Umgebungen
RationalRewards: Reasoning Rewards Skalieren die visuelle Generation sowohl zur Training- als auch zur Testzeit
Seedance 2.0: Advancing Video Generation for World Complexity
GameWorld: In Richtung einer standardisierten und verifizierbaren Evaluation von Multimodal Game Agents
Cross-Scale Pansharpening via ScaleFormer und der PanScale Benchmark
ParseBench: Ein Benchmark zum Dokumentenparsing für AI Agents
Memory Intelligence Agent
PROPELLA-1: MULTI-PROPERTY DOCUMENT ANNOTATION FÜR DIE LLM DATA CURATION IN GROSSEM MASSSTAB
Internalisiertes Reasoning für das Visual Document Understanding in Long-Context-Szenarien
TurboQuant: Online-Vektorquantisierung mit nahezu optimaler Verzerrungsrate
Fish-Speech: Nutzung von Large Language Models für fortschrittliche multilinguale Text-to-Speech-Synthese
Löschung von Videoobjekten und Interaktionen
VoxCPM: Tokenizer-freies TTS zur kontextbewussten Spracherzeugung und lebensnahen Voice Cloning
OmniVoice: Auf dem Weg zu omnilingualem Zero-Shot Text-to-Speech mittels Diffusion Language Models
Wo Vision zu Text wird: Lokalisierung des OCR-Routing-Bottlenecks in Vision-Language Models
OCR oder nicht? Überdenken der Informationsextraktion aus Dokumenten im Zeitalter von MLLMs unter Verwendung von groß angelegten Datensätzen aus der realen Welt
dnaHNet: Ein skalierbares und hierarchisches Foundation Model für das Lernen genomischer Sequenzen
Neuronale Computer
ASGuard: Activation-Scaling Guard zur Abmilderung gezielter Jailbreaking Attacks
GlobalSplat: Effizientes Feed-Forward 3D Gaussian Splatting durch globale Scene Tokens
Wie lässt sich ein Reasoning Model fine-tunen? Ein Teacher-Student-Kooperationsframework zur Synthese von Student-consistent SFT-Daten
RAD-2: Skalierung von Reinforcement Learning in einem Generator-Discriminator-Framework
DR3-Eval: Auf dem Weg zu einer realistischen und reproduzierbaren Deep Research Evaluation
HY-World 2.0: Ein Multi-Modal World Model zur Rekonstruktion, Generierung und Simulation von 3D-Welten
pi0.7: Ein steuerbares generelles robotisches Foundation Model mit emergenten Fähigkeiten
GTR: Guided Thought Reinforcement verhindert den Thought Collapse beim Training von RL-basierten VLM Agenten
Agent-Fähigkeiten für Large Language Models: Architektur, Akquisition, Sicherheit und zukünftige Entwicklungen
Raumtheorie: Können Foundation Models durch aktive Exploration räumliche Überzeugungen konstruieren?
Gedächtnis-Transfer Learning: Wie Erinnerungen über Domänen hinweg in Coding Agents übertragen werden
OccuBench: Evaluierung von AI Agents bei realen professionellen Aufgaben mittels Language World Models
SpatialEvo: Selbstentwickelnde räumliche Intelligenz durch deterministische geometrische Umgebungen
RationalRewards: Reasoning Rewards Skalieren die visuelle Generation sowohl zur Training- als auch zur Testzeit
Seedance 2.0: Advancing Video Generation for World Complexity
GameWorld: In Richtung einer standardisierten und verifizierbaren Evaluation von Multimodal Game Agents
Cross-Scale Pansharpening via ScaleFormer und der PanScale Benchmark
ParseBench: Ein Benchmark zum Dokumentenparsing für AI Agents
Memory Intelligence Agent
PROPELLA-1: MULTI-PROPERTY DOCUMENT ANNOTATION FÜR DIE LLM DATA CURATION IN GROSSEM MASSSTAB
Internalisiertes Reasoning für das Visual Document Understanding in Long-Context-Szenarien
TurboQuant: Online-Vektorquantisierung mit nahezu optimaler Verzerrungsrate