Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Wo Vision zu Text wird: Lokalisierung des OCR-Routing-Bottlenecks in Vision-Language Models

OCR oder nicht? Überdenken der Informationsextraktion aus Dokumenten im Zeitalter von MLLMs unter Verwendung von groß angelegten Datensätzen aus der realen Welt































Wo Vision zu Text wird: Lokalisierung des OCR-Routing-Bottlenecks in Vision-Language Models

OCR oder nicht? Überdenken der Informationsextraktion aus Dokumenten im Zeitalter von MLLMs unter Verwendung von groß angelegten Datensätzen aus der realen Welt






























dnaHNet: Ein skalierbares und hierarchisches Foundation Model für das Lernen genomischer Sequenzen
Neuronale Computer
ASGuard: Activation-Scaling Guard zur Abmilderung gezielter Jailbreaking Attacks
GlobalSplat: Effizientes Feed-Forward 3D Gaussian Splatting durch globale Scene Tokens
Wie lässt sich ein Reasoning Model fine-tunen? Ein Teacher-Student-Kooperationsframework zur Synthese von Student-consistent SFT-Daten
RAD-2: Skalierung von Reinforcement Learning in einem Generator-Discriminator-Framework
DR3-Eval: Auf dem Weg zu einer realistischen und reproduzierbaren Deep Research Evaluation
HY-World 2.0: Ein Multi-Modal World Model zur Rekonstruktion, Generierung und Simulation von 3D-Welten
pi0.7: Ein steuerbares generelles robotisches Foundation Model mit emergenten Fähigkeiten
GTR: Guided Thought Reinforcement verhindert den Thought Collapse beim Training von RL-basierten VLM Agenten
Agent-Fähigkeiten für Large Language Models: Architektur, Akquisition, Sicherheit und zukünftige Entwicklungen
Raumtheorie: Können Foundation Models durch aktive Exploration räumliche Überzeugungen konstruieren?
Gedächtnis-Transfer Learning: Wie Erinnerungen über Domänen hinweg in Coding Agents übertragen werden
OccuBench: Evaluierung von AI Agents bei realen professionellen Aufgaben mittels Language World Models
SpatialEvo: Selbstentwickelnde räumliche Intelligenz durch deterministische geometrische Umgebungen
RationalRewards: Reasoning Rewards Skalieren die visuelle Generation sowohl zur Training- als auch zur Testzeit
Seedance 2.0: Advancing Video Generation for World Complexity
GameWorld: In Richtung einer standardisierten und verifizierbaren Evaluation von Multimodal Game Agents
Cross-Scale Pansharpening via ScaleFormer und der PanScale Benchmark
ParseBench: Ein Benchmark zum Dokumentenparsing für AI Agents
Memory Intelligence Agent
PROPELLA-1: MULTI-PROPERTY DOCUMENT ANNOTATION FÜR DIE LLM DATA CURATION IN GROSSEM MASSSTAB
Internalisiertes Reasoning für das Visual Document Understanding in Long-Context-Szenarien
TurboQuant: Online-Vektorquantisierung mit nahezu optimaler Verzerrungsrate
BERT-als-Richter: Eine robuste Alternative zu lexikalischen Methoden für die effiziente referenzbasierte LLM-Evaluierung
SPPO: Sequence-Level PPO für Long-Horizon Reasoning Tasks
Bildschirm-Turing-Test: Ein Benchmark für die Humanisierung von Mobile GUI Agenten
Audio-Omni: Erweiterung des multi-modalen Verständnisses auf vielseitige Audio-Generation und -Editierung
Überdenken der On-Policy Distillation von Large Language Models: Phänomenologie, Mechanismus und Rezept
KnowRL: Steigerung der LLM Reasoning-Fähigkeit durch Reinforcement Learning mit minimal-ausreichender Knowledge Guidance
dnaHNet: Ein skalierbares und hierarchisches Foundation Model für das Lernen genomischer Sequenzen
Neuronale Computer
ASGuard: Activation-Scaling Guard zur Abmilderung gezielter Jailbreaking Attacks
GlobalSplat: Effizientes Feed-Forward 3D Gaussian Splatting durch globale Scene Tokens
Wie lässt sich ein Reasoning Model fine-tunen? Ein Teacher-Student-Kooperationsframework zur Synthese von Student-consistent SFT-Daten
RAD-2: Skalierung von Reinforcement Learning in einem Generator-Discriminator-Framework
DR3-Eval: Auf dem Weg zu einer realistischen und reproduzierbaren Deep Research Evaluation
HY-World 2.0: Ein Multi-Modal World Model zur Rekonstruktion, Generierung und Simulation von 3D-Welten
pi0.7: Ein steuerbares generelles robotisches Foundation Model mit emergenten Fähigkeiten
GTR: Guided Thought Reinforcement verhindert den Thought Collapse beim Training von RL-basierten VLM Agenten
Agent-Fähigkeiten für Large Language Models: Architektur, Akquisition, Sicherheit und zukünftige Entwicklungen
Raumtheorie: Können Foundation Models durch aktive Exploration räumliche Überzeugungen konstruieren?
Gedächtnis-Transfer Learning: Wie Erinnerungen über Domänen hinweg in Coding Agents übertragen werden
OccuBench: Evaluierung von AI Agents bei realen professionellen Aufgaben mittels Language World Models
SpatialEvo: Selbstentwickelnde räumliche Intelligenz durch deterministische geometrische Umgebungen
RationalRewards: Reasoning Rewards Skalieren die visuelle Generation sowohl zur Training- als auch zur Testzeit
Seedance 2.0: Advancing Video Generation for World Complexity
GameWorld: In Richtung einer standardisierten und verifizierbaren Evaluation von Multimodal Game Agents
Cross-Scale Pansharpening via ScaleFormer und der PanScale Benchmark
ParseBench: Ein Benchmark zum Dokumentenparsing für AI Agents
Memory Intelligence Agent
PROPELLA-1: MULTI-PROPERTY DOCUMENT ANNOTATION FÜR DIE LLM DATA CURATION IN GROSSEM MASSSTAB
Internalisiertes Reasoning für das Visual Document Understanding in Long-Context-Szenarien
TurboQuant: Online-Vektorquantisierung mit nahezu optimaler Verzerrungsrate
BERT-als-Richter: Eine robuste Alternative zu lexikalischen Methoden für die effiziente referenzbasierte LLM-Evaluierung
SPPO: Sequence-Level PPO für Long-Horizon Reasoning Tasks
Bildschirm-Turing-Test: Ein Benchmark für die Humanisierung von Mobile GUI Agenten
Audio-Omni: Erweiterung des multi-modalen Verständnisses auf vielseitige Audio-Generation und -Editierung
Überdenken der On-Policy Distillation von Large Language Models: Phänomenologie, Mechanismus und Rezept
KnowRL: Steigerung der LLM Reasoning-Fähigkeit durch Reinforcement Learning mit minimal-ausreichender Knowledge Guidance