Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Raisonnement internalisé pour la compréhension de documents visuels à long contexte

TurboQuant : Vector Quantization en ligne avec un taux de distorsion quasi optimal































Raisonnement internalisé pour la compréhension de documents visuels à long contexte

TurboQuant : Vector Quantization en ligne avec un taux de distorsion quasi optimal






























BERT-as-a-Judge : Une alternative robuste aux méthodes lexicales pour une évaluation efficace des LLM basée sur des références.
SPPO : PPO au niveau de la séquence pour les tâches de raisonnement à long horizon (Long-Horizon Reasoning)
Le test de Turing à l'écran : Un benchmark pour l'humanisation des Mobile GUI Agent.
Audio-Omni : Étendre la compréhension multi-modale vers la génération et l'édition audio polyvalentes
Repenser la Distillation On-Policy des Large Language Models : Phénoménologie, Mécanisme et Recette
KnowRL : Améliorer le raisonnement des LLM via l'apprentissage par renforcement avec un guidage de connaissances minimal-suffisant
Uni-ViGU : Vers une génération et une compréhension vidéo unifiées via un générateur vidéo basé sur la Diffusion.
ClawGUI : Un framework unifié pour le training, l'évaluation et le déploiement des GUI Agents.
Attention Sink dans les Transformers : une étude sur l'utilisation, l'interprétation et l'atténuation
OmniShow : Unifier les conditions multimodales pour la génération de vidéos de Human-Object Interaction
Le passé n'est pas passé : le Reward Shaping dynamique optimisé par la mémoire.
QuanBench+ : Un Benchmark unifié multi-framework pour la génération de code quantique basée sur les LLM
Transformers à boucles élastiques pour la génération visuelle
ECHO : Génération efficace de rapports de radiographie thoracique par One-step Block Diffusion
Matrix-Game 3.0 : Modèle de monde interactif en temps réel et en streaming avec une mémoire à long horizon.
Rapport technique d'EXAONE 4.5
RefineAnything : Raffinement multimodal spécifique à la région pour des détails locaux parfaits
FORGE : Évaluation multimodale à grain fin pour les scénarios de fabrication
WildDet3D : Passer à l'échelle de la détection 3D promptable en milieu sauvage (in the wild)
Autoreason : une auto-amélioration capable de savoir quand s'arrêter
ActiveGlasses : Apprentissage de la manipulation par vision active à partir de démonstrations humaines égocentrées
MegaStyle : Construction d'un dataset de styles diversifié et scalable via un mapping de style Text-to-Image cohérent
Lorsque les nombres parlent : Aligner les numéraux textuels et les instances visuelles dans les modèles Text-to-Video Diffusion.
HY-Embodied-0.5 : Des Embodied Foundation Models pour des Agents en conditions réelles.
ClawBench : Les AI Agents peuvent-ils accomplir des tâches quotidiennes en ligne ?
Repenser la Généralisation dans le SFT de Raisonnement : Une Analyse Conditionnelle sur l'Optimisation, les Données et la Capacité du Modèle
SkillClaw : Permettre aux Skills d'évoluer collectivement grâce à un Agentic Evolver
MDPBench : un benchmark pour le parsing de documents multilingues dans des scénarios du monde réel
TC-AE : Libérer la capacité des tokens pour les autoencodeurs de Deep Compression
INSPATIO-WORLD : Un simulateur de monde 4D en temps réel via la modélisation autoregressive spatiotemporelle
BERT-as-a-Judge : Une alternative robuste aux méthodes lexicales pour une évaluation efficace des LLM basée sur des références.
SPPO : PPO au niveau de la séquence pour les tâches de raisonnement à long horizon (Long-Horizon Reasoning)
Le test de Turing à l'écran : Un benchmark pour l'humanisation des Mobile GUI Agent.
Audio-Omni : Étendre la compréhension multi-modale vers la génération et l'édition audio polyvalentes
Repenser la Distillation On-Policy des Large Language Models : Phénoménologie, Mécanisme et Recette
KnowRL : Améliorer le raisonnement des LLM via l'apprentissage par renforcement avec un guidage de connaissances minimal-suffisant
Uni-ViGU : Vers une génération et une compréhension vidéo unifiées via un générateur vidéo basé sur la Diffusion.
ClawGUI : Un framework unifié pour le training, l'évaluation et le déploiement des GUI Agents.
Attention Sink dans les Transformers : une étude sur l'utilisation, l'interprétation et l'atténuation
OmniShow : Unifier les conditions multimodales pour la génération de vidéos de Human-Object Interaction
Le passé n'est pas passé : le Reward Shaping dynamique optimisé par la mémoire.
QuanBench+ : Un Benchmark unifié multi-framework pour la génération de code quantique basée sur les LLM
Transformers à boucles élastiques pour la génération visuelle
ECHO : Génération efficace de rapports de radiographie thoracique par One-step Block Diffusion
Matrix-Game 3.0 : Modèle de monde interactif en temps réel et en streaming avec une mémoire à long horizon.
Rapport technique d'EXAONE 4.5
RefineAnything : Raffinement multimodal spécifique à la région pour des détails locaux parfaits
FORGE : Évaluation multimodale à grain fin pour les scénarios de fabrication
WildDet3D : Passer à l'échelle de la détection 3D promptable en milieu sauvage (in the wild)
Autoreason : une auto-amélioration capable de savoir quand s'arrêter
ActiveGlasses : Apprentissage de la manipulation par vision active à partir de démonstrations humaines égocentrées
MegaStyle : Construction d'un dataset de styles diversifié et scalable via un mapping de style Text-to-Image cohérent
Lorsque les nombres parlent : Aligner les numéraux textuels et les instances visuelles dans les modèles Text-to-Video Diffusion.
HY-Embodied-0.5 : Des Embodied Foundation Models pour des Agents en conditions réelles.
ClawBench : Les AI Agents peuvent-ils accomplir des tâches quotidiennes en ligne ?
Repenser la Généralisation dans le SFT de Raisonnement : Une Analyse Conditionnelle sur l'Optimisation, les Données et la Capacité du Modèle
SkillClaw : Permettre aux Skills d'évoluer collectivement grâce à un Agentic Evolver
MDPBench : un benchmark pour le parsing de documents multilingues dans des scénarios du monde réel
TC-AE : Libérer la capacité des tokens pour les autoencodeurs de Deep Compression
INSPATIO-WORLD : Un simulateur de monde 4D en temps réel via la modélisation autoregressive spatiotemporelle