Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

AgentDoG 1.5: Ein leichtgewichtiges und skalierbares Alignment-Framework für AI Agent-Sicherheit und -schutz

Weltaktionsmodelle: Die nächste Grenze in der verkörperten KI































AgentDoG 1.5: Ein leichtgewichtiges und skalierbares Alignment-Framework für AI Agent-Sicherheit und -schutz

Weltaktionsmodelle: Die nächste Grenze in der verkörperten KI






























Welt-Aktionsmodelle sind Zero-shot-Policies
ResearchMath-14K: Skalierung von Mathematik auf Forschungsniveau durch Agents
Selbstverbessernde Sprachmodelle mit bidirektionaler evolutionärer Suche
Von Pixeln zu Wörtern -- Hin zu nativen One-Vision-Modellen im großen Maßstab
Agent-Explorative-Policy-Optimierung für multimodales agentic Reasoning
ProRL: Effektives Reinforcement Learning für proaktive Empfehlung mittels rektifizierter Policy-Gradient-Schätzung
Gamma-World: Generative Multi-Agent Weltmodellierung Jenseits von Zwei Spielern
AutoFigure: Generierung und Verfeinerung publikationsreifer wissenschaftlicher Illustrationen
AutoResearch KI: Auf dem Weg zu einer KI-gestützten Automatisierung der Forschung für wissenschaftliche Entdeckungen
Engineering von Agent-Harnessing: Eine Übersicht
D^2-Monitor: Dynamische Sicherheitsüberwachung für Diffusions-LLMs mittels zögerungsbewusstem Routing
Geometriebewusste Repräsentationsrauschunterdrückung für robuste Mehransichten-3D-Rekonstruktion
EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung
MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Mobile-GUI-Agent-Forschung
SpatialBench: Ist Ihr räumliches Grundlagenmodell ein Allrounder?
LocateAnything: Schnelle und hochwertige Visions-Sprache-Verankerung mit paralleler Box-Decodierung
Gemini Embedding 2: Ein nativer multimodaler Embedding-Model aus Gemini
Sprachmodelle brauchen Schlaf
ECHO: Terminal Agents lernen Weltmodelle kostenlos
ParaVT: Zähmung des Tool-Prior-Paradoxons für paralleles Tool-Use in agenticem Video-Reinforcement-Learning
TriSplat: Simulationsbereite, vorwärtsgerichtete 3D-Szenenrekonstruktion
Foundation Protocol: Eine Koordinierungsschicht für die agentic Gesellschaft
WBench: Ein umfassender Multi-Turn-Benchmark zur Bewertung interaktiver Video-World-Modelle
Macaron-A2UI: Ein Modell für generatives UI in persönlichen Agenten
DVAO: Dynamische Varianz-adaptive Vorteilsoptimierung für Multi-Reinforcement-Learning
ViMU: Benchmarking Video Metaphorical Understanding
SMOL: Professionell übersetzte parallele Daten für 115 unterrepräsentierte Sprachen
Chi-Bench: Können KI-Agenten end-to-End-Prozesse in der Gesundheitsversorgung mit langer Horizontdauer und hoher Politikhäufigkeit automatisieren?
Kombination von On-Policy-Optimierung und Distillation für langkontextuelle Schlussfolgerungen in großen Sprachmodellen
Durch den Blickwinkel des Kontrasts: Selbstverbessernde visuelle Schlussfolgerung in VLMs
Welt-Aktionsmodelle sind Zero-shot-Policies
ResearchMath-14K: Skalierung von Mathematik auf Forschungsniveau durch Agents
Selbstverbessernde Sprachmodelle mit bidirektionaler evolutionärer Suche
Von Pixeln zu Wörtern -- Hin zu nativen One-Vision-Modellen im großen Maßstab
Agent-Explorative-Policy-Optimierung für multimodales agentic Reasoning
ProRL: Effektives Reinforcement Learning für proaktive Empfehlung mittels rektifizierter Policy-Gradient-Schätzung
Gamma-World: Generative Multi-Agent Weltmodellierung Jenseits von Zwei Spielern
AutoFigure: Generierung und Verfeinerung publikationsreifer wissenschaftlicher Illustrationen
AutoResearch KI: Auf dem Weg zu einer KI-gestützten Automatisierung der Forschung für wissenschaftliche Entdeckungen
Engineering von Agent-Harnessing: Eine Übersicht
D^2-Monitor: Dynamische Sicherheitsüberwachung für Diffusions-LLMs mittels zögerungsbewusstem Routing
Geometriebewusste Repräsentationsrauschunterdrückung für robuste Mehransichten-3D-Rekonstruktion
EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung
MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Mobile-GUI-Agent-Forschung
SpatialBench: Ist Ihr räumliches Grundlagenmodell ein Allrounder?
LocateAnything: Schnelle und hochwertige Visions-Sprache-Verankerung mit paralleler Box-Decodierung
Gemini Embedding 2: Ein nativer multimodaler Embedding-Model aus Gemini
Sprachmodelle brauchen Schlaf
ECHO: Terminal Agents lernen Weltmodelle kostenlos
ParaVT: Zähmung des Tool-Prior-Paradoxons für paralleles Tool-Use in agenticem Video-Reinforcement-Learning
TriSplat: Simulationsbereite, vorwärtsgerichtete 3D-Szenenrekonstruktion
Foundation Protocol: Eine Koordinierungsschicht für die agentic Gesellschaft
WBench: Ein umfassender Multi-Turn-Benchmark zur Bewertung interaktiver Video-World-Modelle
Macaron-A2UI: Ein Modell für generatives UI in persönlichen Agenten
DVAO: Dynamische Varianz-adaptive Vorteilsoptimierung für Multi-Reinforcement-Learning
ViMU: Benchmarking Video Metaphorical Understanding
SMOL: Professionell übersetzte parallele Daten für 115 unterrepräsentierte Sprachen
Chi-Bench: Können KI-Agenten end-to-End-Prozesse in der Gesundheitsversorgung mit langer Horizontdauer und hoher Politikhäufigkeit automatisieren?
Kombination von On-Policy-Optimierung und Distillation für langkontextuelle Schlussfolgerungen in großen Sprachmodellen
Durch den Blickwinkel des Kontrasts: Selbstverbessernde visuelle Schlussfolgerung in VLMs