Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

LongSpeech: Eine skalierbare Benchmark für Transkription, Übersetzung und Verständnis in langem Sprachat

ClawMark: Ein Lebendiges-Welt-Benchmark für Mehrfach-Turn-, Mehr-Tage-, Multimodale Coworker-Agents































LongSpeech: Eine skalierbare Benchmark für Transkription, Übersetzung und Verständnis in langem Sprachat

ClawMark: Ein Lebendiges-Welt-Benchmark für Mehrfach-Turn-, Mehr-Tage-, Multimodale Coworker-Agents






























Tuna-2: Pixel-Embeddings schlagen visuelle Encodierer für multimodales Verständnis und Generierung
Sicherheit in Vision-Sprache-Aktions-Systemen: Bedrohungen, Herausforderungen, Bewertungen und Mechanismen
ReVSI: Neuordnung der Bewertung der visuellen räumlichen Intelligenz für eine präzise Beurteilung der 3D-Reasoning-Fähigkeiten von VLMs
Von Fähigkeiten zu Talenten: Organisation heterogener Agents als realweltliches Unternehmen
World-R1: Verstärkung von 3D-Einschränkungen für die Text-zu-Video-Generierung
Videonalyse und -generierung mittels einer semantischen Progress-Funktion
SmartPhotoCrafter: Einheitliche Reasoning-, Generierungs- und Optimierungsprozesse für die automatische fotografische Bildbearbeitung
Kontexte sind niemals lang genug: Strukturiertes Schließen für skalierbares Question Answering über umfangreiche Dokumentensätze hinweg
AgentSearchBench: Ein Benchmark für die Suche durch KI agents in realen Umgebungen
FlowAnchor: Stabilisierung des Editiersignals für inversion-freies Video-Editing
LLM-Sicherheit von innen heraus: Detektion schädlicher Inhalte mittels interner Repräsentationen
DiffNR: Diffusionsgestützte neuronale Repräsentationsoptimierung für die tomografische 3D-Rekonstruktion mit spärlichen Ansichten
Agentic World Modeling: Grundlagen, Fähigkeiten, Gesetze und darüber hinaus
Entkoppeltes DiLoCo für resilientes verteiltes Pre-training
EVENT TENSOR: EINE VEREINFACHTE ABSTRAKTION ZUR KOMPILIERUNG DYNAMISCHER MEGAKERNEL
Schnelles und langsames Sehen: Erlernen des Zeitflusses in Videos
Ko-evolutionäre LLM-Entscheidungs- und Skill-Bank-Agents für Langzeitaufgaben
StyleID: Ein Wahrnehmungs-orientierter Datensatz und eine Metrik für die stilisierungsunabhängige Erkennung der Gesichtsidealität
UniT: Auf dem Weg zu einer vereinheitlichten physikalischen Sprache für das Human-to-Humanoid Policy Learning und World Modeling
WorldMark: Eine vereinheitlichte Benchmark-Suite für interaktive Video-World-Models
LLaTiSA: In Richtung einer schwierigkeitsschichtbasierten Zeitreihen-Argumentation von der visuellen Wahrnehmung bis zur Semantik
Bildgeneratoren sind Generalist Vision Learners
LongCat-Next: Lexikalisierung von Modalitäten als diskrete Tokens
FIPO: Elicitation von Deep Reasoning durch Future-KL-beeinflusste Policy Optimization
Bootstrapping-Exploration mittels sprachlichem Feedback auf Gruppenebene in Reinforcement Learning
SocialOmni: Benchmarking der audiovisuellen sozialen Interaktivität in Omni-Modellen
DeepSeek-V4: Auf dem Weg zu hocheffizienter Million-Token Context Intelligence
Erforschung der räumlichen Intelligenz aus einer generativen Perspektive
DeVI: Physikbasiertes geschicktes Mensch-Objekt-Interaktionsverhalten durch synthetische Videoimitation
Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen
Tuna-2: Pixel-Embeddings schlagen visuelle Encodierer für multimodales Verständnis und Generierung
Sicherheit in Vision-Sprache-Aktions-Systemen: Bedrohungen, Herausforderungen, Bewertungen und Mechanismen
ReVSI: Neuordnung der Bewertung der visuellen räumlichen Intelligenz für eine präzise Beurteilung der 3D-Reasoning-Fähigkeiten von VLMs
Von Fähigkeiten zu Talenten: Organisation heterogener Agents als realweltliches Unternehmen
World-R1: Verstärkung von 3D-Einschränkungen für die Text-zu-Video-Generierung
Videonalyse und -generierung mittels einer semantischen Progress-Funktion
SmartPhotoCrafter: Einheitliche Reasoning-, Generierungs- und Optimierungsprozesse für die automatische fotografische Bildbearbeitung
Kontexte sind niemals lang genug: Strukturiertes Schließen für skalierbares Question Answering über umfangreiche Dokumentensätze hinweg
AgentSearchBench: Ein Benchmark für die Suche durch KI agents in realen Umgebungen
FlowAnchor: Stabilisierung des Editiersignals für inversion-freies Video-Editing
LLM-Sicherheit von innen heraus: Detektion schädlicher Inhalte mittels interner Repräsentationen
DiffNR: Diffusionsgestützte neuronale Repräsentationsoptimierung für die tomografische 3D-Rekonstruktion mit spärlichen Ansichten
Agentic World Modeling: Grundlagen, Fähigkeiten, Gesetze und darüber hinaus
Entkoppeltes DiLoCo für resilientes verteiltes Pre-training
EVENT TENSOR: EINE VEREINFACHTE ABSTRAKTION ZUR KOMPILIERUNG DYNAMISCHER MEGAKERNEL
Schnelles und langsames Sehen: Erlernen des Zeitflusses in Videos
Ko-evolutionäre LLM-Entscheidungs- und Skill-Bank-Agents für Langzeitaufgaben
StyleID: Ein Wahrnehmungs-orientierter Datensatz und eine Metrik für die stilisierungsunabhängige Erkennung der Gesichtsidealität
UniT: Auf dem Weg zu einer vereinheitlichten physikalischen Sprache für das Human-to-Humanoid Policy Learning und World Modeling
WorldMark: Eine vereinheitlichte Benchmark-Suite für interaktive Video-World-Models
LLaTiSA: In Richtung einer schwierigkeitsschichtbasierten Zeitreihen-Argumentation von der visuellen Wahrnehmung bis zur Semantik
Bildgeneratoren sind Generalist Vision Learners
LongCat-Next: Lexikalisierung von Modalitäten als diskrete Tokens
FIPO: Elicitation von Deep Reasoning durch Future-KL-beeinflusste Policy Optimization
Bootstrapping-Exploration mittels sprachlichem Feedback auf Gruppenebene in Reinforcement Learning
SocialOmni: Benchmarking der audiovisuellen sozialen Interaktivität in Omni-Modellen
DeepSeek-V4: Auf dem Weg zu hocheffizienter Million-Token Context Intelligence
Erforschung der räumlichen Intelligenz aus einer generativen Perspektive
DeVI: Physikbasiertes geschicktes Mensch-Objekt-Interaktionsverhalten durch synthetische Videoimitation
Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen