Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

ShotBench : Compréhension Cinématographique de Niveau Expert dans les Modèles Vision-Langue

XVerse : Contrôle cohérent de l'identité et des attributs sémantiques de plusieurs sujets par modulation DiT































ShotBench : Compréhension Cinématographique de Niveau Expert dans les Modèles Vision-Langue

XVerse : Contrôle cohérent de l'identité et des attributs sémantiques de plusieurs sujets par modulation DiT






























Conception d'anticorps à zéro coup d'essai dans une plaque à 24 puits
KinFormer : Régression symbolique dynamique généralisable pour la cinématique des réactions organiques catalytiques
MiCo : Contraste multi-image pour le raisonnement visuel renforcé
L'optimisation fine-grainée des préférences améliore le raisonnement spatial dans les VLMs.
ARK : Un cadre open-source basé sur Python pour l'apprentissage robotique
Pangu Pro MoE : Mélange d'Experts Groupés pour une Éparsité Efficace
LLaVA-Scissor : Compression de jetons avec des composantes sémantiques connexes pour les LLMs vidéo
BlenderFusion : Édition visuelle basée sur le 3D et composition générative
UniMate : Un Modèle Unifié pour la Génération de Matériaux Mécaniques Métamériques, la Prédiction de leurs Propriétés et la Confirmation de leur État
Apprendre à Omettre les Couches Intermédiaires des Transformers
SAM4D : Segmenter Tout dans les Flux Caméra et LiDAR
Où trouver le Grokking dans la préformation des LLM ? Surveillance de la mémorisation à la généralisation sans test
FineWeb2 : Une seule pipeline pour les adapter toutes -- Adaptation du traitement des données d'apprentissage préalable à chaque langue
MADrive : Modélisation des Scènes de Conduite Augmentée par la Mémoire
FaSTA^* : Agent de Trajectoire Rapide-Lente avec Extraction de Sous-routines pour une Édition d'Images Multitour Efficace
Mind2Web 2 : Évaluation de la recherche agente avec l’agent en tant que juge
WorldVLA : Vers un modèle autoregressif d'action mondiale
ReCode : Mise à jour des connaissances sur les API de code avec l'apprentissage par renforcement
Quand la vie vous offre des échantillons : Les avantages de l'augmentation de l'inférence calculatoire pour les LLMs multilingues
HiWave : Génération d'images de haute résolution sans entraînement par échantillonnage basé sur les ondelettes
DualTHOR : Une plateforme de simulation humanoïde à deux bras pour la planification anticipant les imprévus
MMSearch-R1 : Inciter les LMM à rechercher
OctoThinker : L’incitation en cours de formation favorise l’évolution de l’apprentissage par renforcement
AlphaGenome : avancer dans la prédiction des effets des variants régulateurs avec un modèle de séquence d'ADN unifié
OmniDrive : Un jeu de données vision-langue holistique pour la conduite autonome avec raisonnement contre-factuel
EcoMapper : Modélisation générative pour des images satellites sensibles au climat
JarvisArt : Libérer la créativité artistique humaine grâce à un agent intelligent de retouche photographique
ScaleCap : Inférence d'images à l'échelle via le débiaisage bimodal
GRPO-CARE : Apprentissage par renforcement avec prise en compte de la cohérence pour le raisonnement multimodal
Skywork-SWE : Révéler les lois d'échelle des données pour l'ingénierie logicielle dans les LLMs
Conception d'anticorps à zéro coup d'essai dans une plaque à 24 puits
KinFormer : Régression symbolique dynamique généralisable pour la cinématique des réactions organiques catalytiques
MiCo : Contraste multi-image pour le raisonnement visuel renforcé
L'optimisation fine-grainée des préférences améliore le raisonnement spatial dans les VLMs.
ARK : Un cadre open-source basé sur Python pour l'apprentissage robotique
Pangu Pro MoE : Mélange d'Experts Groupés pour une Éparsité Efficace
LLaVA-Scissor : Compression de jetons avec des composantes sémantiques connexes pour les LLMs vidéo
BlenderFusion : Édition visuelle basée sur le 3D et composition générative
UniMate : Un Modèle Unifié pour la Génération de Matériaux Mécaniques Métamériques, la Prédiction de leurs Propriétés et la Confirmation de leur État
Apprendre à Omettre les Couches Intermédiaires des Transformers
SAM4D : Segmenter Tout dans les Flux Caméra et LiDAR
Où trouver le Grokking dans la préformation des LLM ? Surveillance de la mémorisation à la généralisation sans test
FineWeb2 : Une seule pipeline pour les adapter toutes -- Adaptation du traitement des données d'apprentissage préalable à chaque langue
MADrive : Modélisation des Scènes de Conduite Augmentée par la Mémoire
FaSTA^* : Agent de Trajectoire Rapide-Lente avec Extraction de Sous-routines pour une Édition d'Images Multitour Efficace
Mind2Web 2 : Évaluation de la recherche agente avec l’agent en tant que juge
WorldVLA : Vers un modèle autoregressif d'action mondiale
ReCode : Mise à jour des connaissances sur les API de code avec l'apprentissage par renforcement
Quand la vie vous offre des échantillons : Les avantages de l'augmentation de l'inférence calculatoire pour les LLMs multilingues
HiWave : Génération d'images de haute résolution sans entraînement par échantillonnage basé sur les ondelettes
DualTHOR : Une plateforme de simulation humanoïde à deux bras pour la planification anticipant les imprévus
MMSearch-R1 : Inciter les LMM à rechercher
OctoThinker : L’incitation en cours de formation favorise l’évolution de l’apprentissage par renforcement
AlphaGenome : avancer dans la prédiction des effets des variants régulateurs avec un modèle de séquence d'ADN unifié
OmniDrive : Un jeu de données vision-langue holistique pour la conduite autonome avec raisonnement contre-factuel
EcoMapper : Modélisation générative pour des images satellites sensibles au climat
JarvisArt : Libérer la créativité artistique humaine grâce à un agent intelligent de retouche photographique
ScaleCap : Inférence d'images à l'échelle via le débiaisage bimodal
GRPO-CARE : Apprentissage par renforcement avec prise en compte de la cohérence pour le raisonnement multimodal
Skywork-SWE : Révéler les lois d'échelle des données pour l'ingénierie logicielle dans les LLMs