Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Le Reward Hacking à l'ère des grands modèles : mécanismes, désalignement émergent et défis

DR-Venus : Vers des agents de recherche profonde à l'échelle de l'edge à la frontière, avec seulement 10k données ouvertes































Le Reward Hacking à l'ère des grands modèles : mécanismes, désalignement émergent et défis

DR-Venus : Vers des agents de recherche profonde à l'échelle de l'edge à la frontière, avec seulement 10k données ouvertes






























Optimisation de politique à court terme
LLaDA2.0-Uni : Unifier la compréhension et la génération multimodales avec un Large Language Model de diffusion
BioInstruct : Instruction Tuning des Large Language Models pour le Traitement du Langage Naturel Biomédical
Rapport technique sur Logics-Parsing-Omni
Task Tokens : une approche flexible pour l'adaptation des modèles de fondation de comportement (Behavior Foundation Models)
Le titre est vide. Veuillez fournir le titre à traduire.
PlayCoder : Rendre jouable le code GUI généré par les LLM
TEMPO : Mise à l'échelle de l'entraînement au moment du test (Test-time Training) pour les grands modèles de raisonnement
AnyRecon : Reconstruction 3D à vue arbitraire avec un modèle de diffusion vidéo
AgentSPEX : un langage de spécification et d'exécution pour agents
CoInteract : Synthèse de vidéos d'interaction humain-objet physiquement cohérente via une co-génération à structure spatiale
Tstars-Tryon 1.0 : un essayage virtuel robuste et réaliste pour des articles de mode diversifiés
Kernels de déquantification NF4 rapides pour l'inférence de Large Language Model
EasyVideoR1 : Un apprentissage par renforcement facilité pour la compréhension vidéo
MultiWorld : Modèles de monde vidéo multi-vues et multi-agents évolutifs
OpenGame : Open Agentic Coding pour les jeux
Agent-World : Passage à l'échelle de la synthèse d'environnements réels pour l'évolution de l'intelligence généraliste des agents
OneVL : Raisonnement et planification latents en une seule étape avec explication vision-langage
Extension de la génération d'images en une étape des étiquettes de classe vers le texte via une représentation textuelle discriminative
ScribblePrompt : une segmentation interactive rapide et flexible pour toute image biomédicale
Long-VITA : Étendre les Large Multi-modal Models à 1 million de tokens tout en maintenant une précision de pointe sur les contextes courts
UI-TARS : Pionnier de l'interaction GUI automatisée avec des Agents natifs
HunyuanVideo : Un cadre systématique pour les Large Video Generative Models
MathNet : un benchmark multimodal global pour le raisonnement mathématique et la récupération d'informations
L'externalisation dans les LLM Agents : Une revue unifiée de la mémoire, des skills, des protocoles et de l'ingénierie de harness
Compression de Contexte Active : Gestion Autonome de la Mémoire dans les LLM Agents
Limitez vos pertes ! Apprendre à élaguer les chemins tôt pour un reasoning parallèle efficace.
Rapport Technique de Qwen3.5-Omni
Découpage conscient de la recherche Web (W-RAC) pour des systèmes de Retrieval-Augmented Generation efficaces et rentables.
PersonaVLM : LLMs Multimodaux Personnalisés à Long Terme
Optimisation de politique à court terme
LLaDA2.0-Uni : Unifier la compréhension et la génération multimodales avec un Large Language Model de diffusion
BioInstruct : Instruction Tuning des Large Language Models pour le Traitement du Langage Naturel Biomédical
Rapport technique sur Logics-Parsing-Omni
Task Tokens : une approche flexible pour l'adaptation des modèles de fondation de comportement (Behavior Foundation Models)
Le titre est vide. Veuillez fournir le titre à traduire.
PlayCoder : Rendre jouable le code GUI généré par les LLM
TEMPO : Mise à l'échelle de l'entraînement au moment du test (Test-time Training) pour les grands modèles de raisonnement
AnyRecon : Reconstruction 3D à vue arbitraire avec un modèle de diffusion vidéo
AgentSPEX : un langage de spécification et d'exécution pour agents
CoInteract : Synthèse de vidéos d'interaction humain-objet physiquement cohérente via une co-génération à structure spatiale
Tstars-Tryon 1.0 : un essayage virtuel robuste et réaliste pour des articles de mode diversifiés
Kernels de déquantification NF4 rapides pour l'inférence de Large Language Model
EasyVideoR1 : Un apprentissage par renforcement facilité pour la compréhension vidéo
MultiWorld : Modèles de monde vidéo multi-vues et multi-agents évolutifs
OpenGame : Open Agentic Coding pour les jeux
Agent-World : Passage à l'échelle de la synthèse d'environnements réels pour l'évolution de l'intelligence généraliste des agents
OneVL : Raisonnement et planification latents en une seule étape avec explication vision-langage
Extension de la génération d'images en une étape des étiquettes de classe vers le texte via une représentation textuelle discriminative
ScribblePrompt : une segmentation interactive rapide et flexible pour toute image biomédicale
Long-VITA : Étendre les Large Multi-modal Models à 1 million de tokens tout en maintenant une précision de pointe sur les contextes courts
UI-TARS : Pionnier de l'interaction GUI automatisée avec des Agents natifs
HunyuanVideo : Un cadre systématique pour les Large Video Generative Models
MathNet : un benchmark multimodal global pour le raisonnement mathématique et la récupération d'informations
L'externalisation dans les LLM Agents : Une revue unifiée de la mémoire, des skills, des protocoles et de l'ingénierie de harness
Compression de Contexte Active : Gestion Autonome de la Mémoire dans les LLM Agents
Limitez vos pertes ! Apprendre à élaguer les chemins tôt pour un reasoning parallèle efficace.
Rapport Technique de Qwen3.5-Omni
Découpage conscient de la recherche Web (W-RAC) pour des systèmes de Retrieval-Augmented Generation efficaces et rentables.
PersonaVLM : LLMs Multimodaux Personnalisés à Long Terme