Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

OS-ATLAS : un modèle d'action fondamental pour des agents GUI généralistes

Fiche système GPT-4o































OS-ATLAS : un modèle d'action fondamental pour des agents GUI généralistes

Fiche système GPT-4o






























SAM2Long : Amélioration de SAM 2 pour la segmentation vidéo longue à l’aide d’un arbre mémoire sans entraînement
Aria : un modèle ouvert multimodal natif à mélange d'experts
Qwen2-VL : Amélioration de la perception du monde par les modèles vision-langage à toute résolution
VGGT : Visual Geometry Grounded Transformer
Génération de Code Multi-Tours par Récompenses en Un Étape
Réexaminer la capacité de généralisation compositionnelle des grands modèles de langage en tenant compte de leur aptitude à suivre les instructions
Agents Web Incarnés : Pont entre les Règnes Physique et Numérique pour une Intelligence d'Agent Intégrée
Récompenses Semantiquement Conscientes pour une Formation R1 Ouverte en Génération Libre
Système BUT pour le Défi MLC-SLM
GenRecal : Génération après recalage des modèles langage-vision de grande à petite taille
ProtoRaisonnement : Les prototypes comme fondement du raisonnement généralisable dans les LLMs
Sekai : Un Jeu de Données Vidéo pour l'Exploration du Monde
QFFT, Ajustement fin sans question pour un raisonnement adaptatif
Les modèles de langage à grande échelle (LLMs) peuvent-ils générer des cas de test de haute qualité pour les problèmes d'algorithmes ? TestCase-Eval : Une évaluation systématique de la couverture et de l'exposition aux défauts
AceReason-Nemotron 1.1 : Avancées en raisonnement mathématique et en raisonnement de code grâce à la synergie entre les transferts de connaissances (SFT) et l'apprentissage par renforcement (RL)
Stream-Omni : Interactions multimodales simultanées avec un grand modèle de langage-vision-parole
Efficient Medical VIE via Reinforcement Learning Amélioration de la VIE médicale par l'apprentissage par renforcement
Échelonnement du calcul en temps de test pour les agents de grands modèles linguistiques (LLM)
TaskCraft : Génération Automatisée de Tâches Agentiques
Attendez, Nous N'avons Pas Besoin de « Attendre » ! La Suppression des Jetons de Pensée Améliore l'Efficacité du Raisonnement
Ego-R1 : Chaîne de pensée outil pour la raisonnement sur les vidéos égocentriques ultra-longues
DeepResearch Bench : Un Benchmark Complet pour les Agents de Recherche Approfondie
Premier Examen des Scientifiques : Étude des Capacités Cognitives des MLLM par le Biais de la Perception, de la Compréhension et du Raisonnement
MiniMax-M1 : Échelonner l'efficacité du calcul en temps de test avec l'Attention Rapide
Au-delà de l'attention homogène : des LLMs à faible consommation mémoire grâce au cache KV approximé par Fourier
Un Jeu de Données de Haute Qualité et une Évaluation Fiable pour la Génération Interlancée d'Images et de Texte
SwS : Synthèse de Problèmes Guidée par les Faiblesses et la Conscience de Soi dans l'Apprentissage par Renforcement pour le Raisonnement des LLM
LiveCodeBench Pro : Comment les médaillés olympiques évaluent-ils les LLMs en programmation compétitive ?
La Dualité de la Diffusion
Équipe Rouge Efficace d'Agents Conformes aux Politiques
SAM2Long : Amélioration de SAM 2 pour la segmentation vidéo longue à l’aide d’un arbre mémoire sans entraînement
Aria : un modèle ouvert multimodal natif à mélange d'experts
Qwen2-VL : Amélioration de la perception du monde par les modèles vision-langage à toute résolution
VGGT : Visual Geometry Grounded Transformer
Génération de Code Multi-Tours par Récompenses en Un Étape
Réexaminer la capacité de généralisation compositionnelle des grands modèles de langage en tenant compte de leur aptitude à suivre les instructions
Agents Web Incarnés : Pont entre les Règnes Physique et Numérique pour une Intelligence d'Agent Intégrée
Récompenses Semantiquement Conscientes pour une Formation R1 Ouverte en Génération Libre
Système BUT pour le Défi MLC-SLM
GenRecal : Génération après recalage des modèles langage-vision de grande à petite taille
ProtoRaisonnement : Les prototypes comme fondement du raisonnement généralisable dans les LLMs
Sekai : Un Jeu de Données Vidéo pour l'Exploration du Monde
QFFT, Ajustement fin sans question pour un raisonnement adaptatif
Les modèles de langage à grande échelle (LLMs) peuvent-ils générer des cas de test de haute qualité pour les problèmes d'algorithmes ? TestCase-Eval : Une évaluation systématique de la couverture et de l'exposition aux défauts
AceReason-Nemotron 1.1 : Avancées en raisonnement mathématique et en raisonnement de code grâce à la synergie entre les transferts de connaissances (SFT) et l'apprentissage par renforcement (RL)
Stream-Omni : Interactions multimodales simultanées avec un grand modèle de langage-vision-parole
Efficient Medical VIE via Reinforcement Learning Amélioration de la VIE médicale par l'apprentissage par renforcement
Échelonnement du calcul en temps de test pour les agents de grands modèles linguistiques (LLM)
TaskCraft : Génération Automatisée de Tâches Agentiques
Attendez, Nous N'avons Pas Besoin de « Attendre » ! La Suppression des Jetons de Pensée Améliore l'Efficacité du Raisonnement
Ego-R1 : Chaîne de pensée outil pour la raisonnement sur les vidéos égocentriques ultra-longues
DeepResearch Bench : Un Benchmark Complet pour les Agents de Recherche Approfondie
Premier Examen des Scientifiques : Étude des Capacités Cognitives des MLLM par le Biais de la Perception, de la Compréhension et du Raisonnement
MiniMax-M1 : Échelonner l'efficacité du calcul en temps de test avec l'Attention Rapide
Au-delà de l'attention homogène : des LLMs à faible consommation mémoire grâce au cache KV approximé par Fourier
Un Jeu de Données de Haute Qualité et une Évaluation Fiable pour la Génération Interlancée d'Images et de Texte
SwS : Synthèse de Problèmes Guidée par les Faiblesses et la Conscience de Soi dans l'Apprentissage par Renforcement pour le Raisonnement des LLM
LiveCodeBench Pro : Comment les médaillés olympiques évaluent-ils les LLMs en programmation compétitive ?
La Dualité de la Diffusion
Équipe Rouge Efficace d'Agents Conformes aux Politiques