Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

T2R-bench : Un benchmark pour la génération de rapports au niveau des articles à partir de tableaux industriels du monde réel

PVPO : Optimisation de politique basée sur la valeur pré-estimée pour le raisonnement agissant































T2R-bench : Un benchmark pour la génération de rapports au niveau des articles à partir de tableaux industriels du monde réel

PVPO : Optimisation de politique basée sur la valeur pré-estimée pour le raisonnement agissant






























Entraînement d’un assistant utile et sans danger par apprentissage par renforcement à partir de feedback humain
UQ : Évaluation des modèles de langage sur des questions non résolues
CARJAN : Génération et simulation de scénarios de trafic basées sur des agents avec AJAN
TiKMiX : Intégrer l'influence des données dans un mélange dynamique pour l'entraînement préalable des modèles linguistiques
TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son
Droplet3D : des prioris du sens commun extraits des vidéos facilitent la génération 3D
A.S.E : Une référence au niveau du dépôt pour évaluer la sécurité dans le code généré par l'IA
EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots
R-4B : Inciter la capacité auto-réfléchissante générale dans les MLLMs par recuit bi-mode et apprentissage par renforcement
Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents
TMUAD : Amélioration des capacités logiques dans les modèles unifiés de détection d'anomalies grâce à une banque de mémoire textuelle
Analyse de la dynamique de pensée en chaîne : orientation active ou rationalisation post hoc peu fiable ?
AWorld : Orchestration de la recette d'entraînement pour l'intelligence artificielle agente
MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP
rStar2-Agent : Rapport technique sur le raisonnement agentique
Pref-GRPO : GRPO basé sur la récompense de préférence par paires pour un apprentissage par renforcement texte-image stable
MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal
Collaboration esthétique IA-IA fondée sur une prise de conscience sémiotique explicite et le développement d'une grammaire émergente
Fixer son regard au cœur : un jeu de données vidéo multi-vues pour l'estimation du rPPG et des biomarqueurs de santé
Prédire l'ordre des jetons suivants améliore la modélisation du langage
MIDAS : synthèse multimodale interactive d'humains numériques par génération vidéo autoregressive en temps réel
Diffusion discrète VLA : Intégrer la diffusion discrète dans le décodage des actions des politiques vision-langage-action
Modèle vision-langage à récompense autonome par décomposition du raisonnement
Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole
CODA : Coordonner le cerveau et le cervelet pour un agent informatique à cerveau dual utilisant un apprentissage par renforcement découplé
WebSight : Une architecture centrée sur la vision pour des agents web robustes
UltraMemV2 : les réseaux mémoire évoluant à 120 milliards de paramètres avec une apprentissage de contexte long supérieur
Rapport technique d'Hermes 4
OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive
VoxHammer : Édition 3D précise et cohérente sans entraînement dans l'espace 3D natif
Entraînement d’un assistant utile et sans danger par apprentissage par renforcement à partir de feedback humain
UQ : Évaluation des modèles de langage sur des questions non résolues
CARJAN : Génération et simulation de scénarios de trafic basées sur des agents avec AJAN
TiKMiX : Intégrer l'influence des données dans un mélange dynamique pour l'entraînement préalable des modèles linguistiques
TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son
Droplet3D : des prioris du sens commun extraits des vidéos facilitent la génération 3D
A.S.E : Une référence au niveau du dépôt pour évaluer la sécurité dans le code généré par l'IA
EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots
R-4B : Inciter la capacité auto-réfléchissante générale dans les MLLMs par recuit bi-mode et apprentissage par renforcement
Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents
TMUAD : Amélioration des capacités logiques dans les modèles unifiés de détection d'anomalies grâce à une banque de mémoire textuelle
Analyse de la dynamique de pensée en chaîne : orientation active ou rationalisation post hoc peu fiable ?
AWorld : Orchestration de la recette d'entraînement pour l'intelligence artificielle agente
MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP
rStar2-Agent : Rapport technique sur le raisonnement agentique
Pref-GRPO : GRPO basé sur la récompense de préférence par paires pour un apprentissage par renforcement texte-image stable
MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal
Collaboration esthétique IA-IA fondée sur une prise de conscience sémiotique explicite et le développement d'une grammaire émergente
Fixer son regard au cœur : un jeu de données vidéo multi-vues pour l'estimation du rPPG et des biomarqueurs de santé
Prédire l'ordre des jetons suivants améliore la modélisation du langage
MIDAS : synthèse multimodale interactive d'humains numériques par génération vidéo autoregressive en temps réel
Diffusion discrète VLA : Intégrer la diffusion discrète dans le décodage des actions des politiques vision-langage-action
Modèle vision-langage à récompense autonome par décomposition du raisonnement
Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole
CODA : Coordonner le cerveau et le cervelet pour un agent informatique à cerveau dual utilisant un apprentissage par renforcement découplé
WebSight : Une architecture centrée sur la vision pour des agents web robustes
UltraMemV2 : les réseaux mémoire évoluant à 120 milliards de paramètres avec une apprentissage de contexte long supérieur
Rapport technique d'Hermes 4
OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive
VoxHammer : Édition 3D précise et cohérente sans entraînement dans l'espace 3D natif