Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

ClawBench : Les AI Agents peuvent-ils accomplir des tâches quotidiennes en ligne ?

Repenser la Généralisation dans le SFT de Raisonnement : Une Analyse Conditionnelle sur l'Optimisation, les Données et la Capacité du Modèle































ClawBench : Les AI Agents peuvent-ils accomplir des tâches quotidiennes en ligne ?

Repenser la Généralisation dans le SFT de Raisonnement : Une Analyse Conditionnelle sur l'Optimisation, les Données et la Capacité du Modèle






























SkillClaw : Permettre aux Skills d'évoluer collectivement grâce à un Agentic Evolver
MDPBench : un benchmark pour le parsing de documents multilingues dans des scénarios du monde réel
TC-AE : Libérer la capacité des tokens pour les autoencodeurs de Deep Compression
INSPATIO-WORLD : Un simulateur de monde 4D en temps réel via la modélisation autoregressive spatiotemporelle
FlowInOne : Unifier la génération multimodale sous la forme d'un Flow Matching de type Image-in, Image-out.
MARS : Permettre la Multi-Token Generation pour les Modèles Autoregressive
Penser en traits plutôt qu'en pixels : la génération d'images pilotée par les processus via un raisonnement entrelacé.
RAGEN-2 : Effondrement du raisonnement dans le RL Agentique
Vanast : Virtual Try-On avec Human Image Animation via une supervision par triplets synthétiques
ThinkTwice : Optimisation conjointe des Large Language Models pour le raisonnement et l'auto-raffinement (Self-Refinement)
ACES : Qui teste les tests ? La cohérence de l'AUC Leave-One-Out pour la génération de code.
Apprendre à extraire des informations à partir de trajectoires d'Agent.
Claw-Eval : Vers une évaluation fiable des Autonomous Agents
Video-MME-v2 : Vers la prochaine étape des benchmarks pour la compréhension vidéo exhaustive
GrandCode : Atteindre le niveau Grandmaster en programmation compétitive via l'Agentic Reinforcement Learning
LIBERO-Para : Un benchmark et des métriques de diagnostic pour la robustesse à la paraphrase dans les modèles VLA.
TriAttention : une compression KV trigonométrique pour un long raisonnement efficace
MinerU2.5-Pro : Repousser les limites de l'analyse de documents axée sur les données à grande échelle.
La loi d'Adam : La loi de fréquence textuelle sur les Large Language Models
OpenWorldLib : Une base de code unifiée et une définition des World Models avancés
WAXAL : UN CORPUS DE PAROLE MULTILINGUE À GRANDE ÉCHELLE POUR LES LANGUES AFRICAINES
DRACO : une référence interdomaine pour l'exactitude, l'exhaustivité et l'objectivité de la recherche approfondie
HuatuoGPT-o1 : Vers un raisonnement médical complexe avec les LLMs
AgentSocialBench : Évaluation des risques liés à la vie privée dans les réseaux sociaux agents centrés sur l'humain
InCoder-32B-Thinking : Modèle de monde industriel pour le code destiné à la réflexion
Agentic-MME : Ce que la capacité agentic apporte réellement à l'intelligence multimodale ?
La déformation des tokens aide les MLLMs à observer depuis des points de vue rapprochés.
Auto-distillation par RLVR
Une référence simple pour la compréhension de flux vidéo
CORAL : Vers une évolution autonome multi-agent pour une découverte ouverte
SkillClaw : Permettre aux Skills d'évoluer collectivement grâce à un Agentic Evolver
MDPBench : un benchmark pour le parsing de documents multilingues dans des scénarios du monde réel
TC-AE : Libérer la capacité des tokens pour les autoencodeurs de Deep Compression
INSPATIO-WORLD : Un simulateur de monde 4D en temps réel via la modélisation autoregressive spatiotemporelle
FlowInOne : Unifier la génération multimodale sous la forme d'un Flow Matching de type Image-in, Image-out.
MARS : Permettre la Multi-Token Generation pour les Modèles Autoregressive
Penser en traits plutôt qu'en pixels : la génération d'images pilotée par les processus via un raisonnement entrelacé.
RAGEN-2 : Effondrement du raisonnement dans le RL Agentique
Vanast : Virtual Try-On avec Human Image Animation via une supervision par triplets synthétiques
ThinkTwice : Optimisation conjointe des Large Language Models pour le raisonnement et l'auto-raffinement (Self-Refinement)
ACES : Qui teste les tests ? La cohérence de l'AUC Leave-One-Out pour la génération de code.
Apprendre à extraire des informations à partir de trajectoires d'Agent.
Claw-Eval : Vers une évaluation fiable des Autonomous Agents
Video-MME-v2 : Vers la prochaine étape des benchmarks pour la compréhension vidéo exhaustive
GrandCode : Atteindre le niveau Grandmaster en programmation compétitive via l'Agentic Reinforcement Learning
LIBERO-Para : Un benchmark et des métriques de diagnostic pour la robustesse à la paraphrase dans les modèles VLA.
TriAttention : une compression KV trigonométrique pour un long raisonnement efficace
MinerU2.5-Pro : Repousser les limites de l'analyse de documents axée sur les données à grande échelle.
La loi d'Adam : La loi de fréquence textuelle sur les Large Language Models
OpenWorldLib : Une base de code unifiée et une définition des World Models avancés
WAXAL : UN CORPUS DE PAROLE MULTILINGUE À GRANDE ÉCHELLE POUR LES LANGUES AFRICAINES
DRACO : une référence interdomaine pour l'exactitude, l'exhaustivité et l'objectivité de la recherche approfondie
HuatuoGPT-o1 : Vers un raisonnement médical complexe avec les LLMs
AgentSocialBench : Évaluation des risques liés à la vie privée dans les réseaux sociaux agents centrés sur l'humain
InCoder-32B-Thinking : Modèle de monde industriel pour le code destiné à la réflexion
Agentic-MME : Ce que la capacité agentic apporte réellement à l'intelligence multimodale ?
La déformation des tokens aide les MLLMs à observer depuis des points de vue rapprochés.
Auto-distillation par RLVR
Une référence simple pour la compréhension de flux vidéo
CORAL : Vers une évolution autonome multi-agent pour une découverte ouverte