Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

StealthAttack : Empoisonnement par projection de nuages de points 3D robuste basé sur des illusions guidées par la densité

ExGRPO : Apprendre à raisonner à partir de l'expérience































StealthAttack : Empoisonnement par projection de nuages de points 3D robuste basé sur des illusions guidées par la densité

ExGRPO : Apprendre à raisonner à partir de l'expérience






























Self-Forcing++ : Vers une génération vidéo de haute qualité à l'échelle de la minute
LongCodeZip : Compression du contexte long pour les modèles linguistiques de code
PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne
Repenser les modèles de récompense pour le scaling à temps de test multi-domaines
Knapsack RL : Débloquer l'exploration des LLM grâce à l'optimisation de l'allocation budgétaire
GEM : Un gymnase pour les LLM agents
VLA-RFT : Affinage par renforcement vision-langage-action avec récompenses vérifiées dans des simulateurs mondiaux
DeepSearch : surmonter le goulot d'étranglement de l'apprentissage par renforcement grâce à des récompenses vérifiables par recherche arborescente de Monte Carlo
OceanGym : un environnement de référence pour les agents incarnés sous-marins
TruthRL : Inciter les grands modèles linguistiques à être véridiques par apprentissage par renforcement
Gagner le pari de la taille : une approche unifiée pour la suppression conjointe d'échantillons et de tokens afin d'optimiser le fine-tuning supervisé
Le Dragonnaître : le lien manquant entre le Transformer et les modèles du cerveau
Vision-Zero : Amélioration autonome des modèles linguistiques-visuels évolutifs par un auto-jeu stratégique et ludifié
MCPMark : un benchmark pour tester la résilience des utilisations réalistes et complètes de l'agent MCP
La notation de politique aléatoire suffit pour le raisonnement des LLM avec des récompenses vérifiables
Démocratiser les scientifiques en intelligence artificielle à l’aide de ToolUniverse
Quand le raisonnement compte-t-il ? Une étude contrôlée sur la contribution du raisonnement à la performance des modèles
Optimisation préférentielle de Nash en multi-joueurs
StableToken : un tokenizer sémantique pour la parole résistant au bruit pour des modèles linguistiques vocaux résilients
SLA : Au-delà de la parcimonie dans les transformateurs à diffusion grâce à une attention parcimonieuse ajustable fine
SimpleFold : replier les protéines est plus simple que vous ne le pensez
POINTS-Reader : Adaptation sans distillation de modèles vision-langage pour la conversion de documents
Synthèse de légendes d'images géométriques généralisables
Avantages et pièges de l'apprentissage par renforcement pour la planification des modèles de langage : une perspective théorique
Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques
Les modèles linguistiques peuvent apprendre à partir de retours verbaux sans récompenses scalaires
Raisonnement variationnel pour les modèles de langage
EPO : Optimisation de politique régularisée par entropie pour les agents LLM Apprentissage par renforcement
MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution
Estimation de l'avantage quantile pour un raisonnement sûr en entropie
Self-Forcing++ : Vers une génération vidéo de haute qualité à l'échelle de la minute
LongCodeZip : Compression du contexte long pour les modèles linguistiques de code
PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne
Repenser les modèles de récompense pour le scaling à temps de test multi-domaines
Knapsack RL : Débloquer l'exploration des LLM grâce à l'optimisation de l'allocation budgétaire
GEM : Un gymnase pour les LLM agents
VLA-RFT : Affinage par renforcement vision-langage-action avec récompenses vérifiées dans des simulateurs mondiaux
DeepSearch : surmonter le goulot d'étranglement de l'apprentissage par renforcement grâce à des récompenses vérifiables par recherche arborescente de Monte Carlo
OceanGym : un environnement de référence pour les agents incarnés sous-marins
TruthRL : Inciter les grands modèles linguistiques à être véridiques par apprentissage par renforcement
Gagner le pari de la taille : une approche unifiée pour la suppression conjointe d'échantillons et de tokens afin d'optimiser le fine-tuning supervisé
Le Dragonnaître : le lien manquant entre le Transformer et les modèles du cerveau
Vision-Zero : Amélioration autonome des modèles linguistiques-visuels évolutifs par un auto-jeu stratégique et ludifié
MCPMark : un benchmark pour tester la résilience des utilisations réalistes et complètes de l'agent MCP
La notation de politique aléatoire suffit pour le raisonnement des LLM avec des récompenses vérifiables
Démocratiser les scientifiques en intelligence artificielle à l’aide de ToolUniverse
Quand le raisonnement compte-t-il ? Une étude contrôlée sur la contribution du raisonnement à la performance des modèles
Optimisation préférentielle de Nash en multi-joueurs
StableToken : un tokenizer sémantique pour la parole résistant au bruit pour des modèles linguistiques vocaux résilients
SLA : Au-delà de la parcimonie dans les transformateurs à diffusion grâce à une attention parcimonieuse ajustable fine
SimpleFold : replier les protéines est plus simple que vous ne le pensez
POINTS-Reader : Adaptation sans distillation de modèles vision-langage pour la conversion de documents
Synthèse de légendes d'images géométriques généralisables
Avantages et pièges de l'apprentissage par renforcement pour la planification des modèles de langage : une perspective théorique
Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques
Les modèles linguistiques peuvent apprendre à partir de retours verbaux sans récompenses scalaires
Raisonnement variationnel pour les modèles de langage
EPO : Optimisation de politique régularisée par entropie pour les agents LLM Apprentissage par renforcement
MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution
Estimation de l'avantage quantile pour un raisonnement sûr en entropie