Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Transformateur Contextuel Géométrique pour la Reconstruction 3D en Flux Continu

Nemotron-Cascade 2 : Post-entraînement des grands modèles de langage (LLMs) par renforcement en cascade (Cascade RL) et distillation on-policy multi-domaines































Transformateur Contextuel Géométrique pour la Reconstruction 3D en Flux Continu

Nemotron-Cascade 2 : Post-entraînement des grands modèles de langage (LLMs) par renforcement en cascade (Cascade RL) et distillation on-policy multi-domaines






























Rapport technique MOSS-TTS
StreakMind : Détection et analyse par IA des traînées satellitaires dans les images astronomiques avec intégration automatisée de bases de données
VibeServe : Les agents d'IA peuvent-ils concevoir des systèmes de services dédiés aux LLM ?
delta-mem : Mémoire en ligne efficace pour les grands modèles de langage
MCP-Cosmos : Agents augmentés par un modèle du monde pour l'exécution de tâches complexes dans les environnements MCP
Au-delà du raisonnement : l'apprentissage par renforcement débloque les connaissances paramétriques dans les LLM
Représentations débiaisées basées sur le modèle pour le contrôle continu économe en échantillons
LLMs à flux multiples : débloquer les modèles de langage avec des flux parallèles de pensées, d'entrées et de sorties
Votre modèle de langage est son propre critique : apprentissage par renforcement avec estimation de la valeur à partir des états internes de l'acteur
Relit-LiVE : Relumière la vidéo en apprenant conjointement la vidéo d'environnement
Alignement positif : Intelligence artificielle pour l'épanouissement humain
LLaVA-UHD v4 : Qu’est-ce qui rend l’encodage visuel efficace dans les LLMs multimodaux ?
Démasquer la distillation on-policy : où elle aide, où elle nuit, et pourquoi
Un seul neurone suffit pour contourner l’alignement de sécurité dans les grands modèles de langage
SlimQwen : explorer le découpage et la distillation dans le pré-entraînement des grands modèles MoE
ELF : Flux de Langages Intégrés
PaperFit : Optimisation de la mise en page pour documents scientifiques avec une boucle de vision intégrée
Distillation On-Policy basée sur les rubriques
CollabVR : Raisonnement vidéo collaboratif avec des modèles de vision-langage et de génération vidéo
TMAS : Mise à l'échelle du calcul pendant le test grâce à la synergie entre agents
Soohak : un benchmark conçu par des mathématiciens pour évaluer les capacités mathématiques de niveau recherche des LLMs
Rapport Technique sur Qwen-Image-2.0
MiniCPM-o 4.5 : Vers une interaction omni-modale en temps réel et plein duplex
Apprentissage en déploiement : Apprentissage par renforcement à l'échelle d'une flotte pour des politiques robotiques polyvalentes
Transformateur Rapide à Latents de Byte
Co-mathématicien IA : Accélérer les progrès des mathématiciens grâce à l'IA agentique
HyperEyes : Un apprentissage par renforcement efficace et conscient de l'efficacité à double granularité pour des agents de recherche multimodale en parallèle
Moyenne Mode Screaming : Résidus de séparation moyenne-variance pour les Diffusion Transformers à 1000 couches
LLMs améliorant les LLMs : Découverte agentic pour la mise à l'échelle lors de l'inférence
Optimisation de la politique en liste : RLVR basé sur les groupes comme projection cible sur le simplexe de la réponse du LLM
Rapport technique MOSS-TTS
StreakMind : Détection et analyse par IA des traînées satellitaires dans les images astronomiques avec intégration automatisée de bases de données
VibeServe : Les agents d'IA peuvent-ils concevoir des systèmes de services dédiés aux LLM ?
delta-mem : Mémoire en ligne efficace pour les grands modèles de langage
MCP-Cosmos : Agents augmentés par un modèle du monde pour l'exécution de tâches complexes dans les environnements MCP
Au-delà du raisonnement : l'apprentissage par renforcement débloque les connaissances paramétriques dans les LLM
Représentations débiaisées basées sur le modèle pour le contrôle continu économe en échantillons
LLMs à flux multiples : débloquer les modèles de langage avec des flux parallèles de pensées, d'entrées et de sorties
Votre modèle de langage est son propre critique : apprentissage par renforcement avec estimation de la valeur à partir des états internes de l'acteur
Relit-LiVE : Relumière la vidéo en apprenant conjointement la vidéo d'environnement
Alignement positif : Intelligence artificielle pour l'épanouissement humain
LLaVA-UHD v4 : Qu’est-ce qui rend l’encodage visuel efficace dans les LLMs multimodaux ?
Démasquer la distillation on-policy : où elle aide, où elle nuit, et pourquoi
Un seul neurone suffit pour contourner l’alignement de sécurité dans les grands modèles de langage
SlimQwen : explorer le découpage et la distillation dans le pré-entraînement des grands modèles MoE
ELF : Flux de Langages Intégrés
PaperFit : Optimisation de la mise en page pour documents scientifiques avec une boucle de vision intégrée
Distillation On-Policy basée sur les rubriques
CollabVR : Raisonnement vidéo collaboratif avec des modèles de vision-langage et de génération vidéo
TMAS : Mise à l'échelle du calcul pendant le test grâce à la synergie entre agents
Soohak : un benchmark conçu par des mathématiciens pour évaluer les capacités mathématiques de niveau recherche des LLMs
Rapport Technique sur Qwen-Image-2.0
MiniCPM-o 4.5 : Vers une interaction omni-modale en temps réel et plein duplex
Apprentissage en déploiement : Apprentissage par renforcement à l'échelle d'une flotte pour des politiques robotiques polyvalentes
Transformateur Rapide à Latents de Byte
Co-mathématicien IA : Accélérer les progrès des mathématiciens grâce à l'IA agentique
HyperEyes : Un apprentissage par renforcement efficace et conscient de l'efficacité à double granularité pour des agents de recherche multimodale en parallèle
Moyenne Mode Screaming : Résidus de séparation moyenne-variance pour les Diffusion Transformers à 1000 couches
LLMs améliorant les LLMs : Découverte agentic pour la mise à l'échelle lors de l'inférence
Optimisation de la politique en liste : RLVR basé sur les groupes comme projection cible sur le simplexe de la réponse du LLM