Articles de recherche récents
Articles de recherche sur l'IA mis à jour quotidiennement pour vous aider à suivre les dernières tendances en matière d'IA

Mono-InternVL-1.5 : Vers des modèles linguistiques multimodaux monolithiques moins coûteux et plus rapides
Gen Luo, Wenhan Dou, Wenhao Li, et al.
il y a un mois

Franca : Regroupement emboîté de type Matryoshka pour l'apprentissage de représentations visuelles à grande échelle
Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, et al.
il y a un mois

Un Cadre centré sur les données pour aborder les défis phonétiques et prosodiques dans les modèles génératifs de la parole russe
Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, et al.
il y a un mois

Le Diable derrière le masque : Une vulnérabilité de sécurité émergente des LLMs de diffusion
Zichen Wen, Jiashu Qu, Dongrui Liu, et al.
il y a un mois

PrefPalette : Modélisation des Préférences Personnalisées avec des Attributs Latents
Shuyue Stella Li, Melanie Sclar, Hunter Lang, et al.
il y a un mois

CUDA-L1 : Amélioration de l'optimisation CUDA grâce à l'apprentissage par renforcement contrastif
Xiaoya Li, Xiaofei Sun, Albert Wang, et al.
il y a un mois

Projet AnyCap : Un cadre unifié, un jeu de données et un benchmark pour la légendisation omni-modale contrôlée
Yiming Ren, Zhiqiang Lin, Yu Li, et al.
il y a un mois

Diffuman4D : Synthèse de vues humaines 4D cohérentes à partir de vidéos à vues rares
avec des modèles de diffusion spatio-temporelle
Yudong Jin, Sida Peng, Xuan Wang, et al.
il y a un mois

Le Jeu de l’Imitation : la Machine d’Imitation de Turing est Généralisable en Longueur
Raisonneur
Zhouqi Hua, Wenwei Zhang, Chengqi Lyu, et al.
il y a un mois

π³ : Apprentissage de géométrie visuelle équivariant aux permutations, évolutif à grande échelle
Yifan Wang, Jianjun Zhou, Haoyi Zhu, et al.
il y a un mois

VisionThink : Modèle de Langage Visuel Intelligent et Efficace par Apprentissage par Renforcement
Senqiao Yang, Junyi Li, Xin Lai, et al.
il y a un mois

Une revue de l'ingénierie contextuelle pour les grands modèles linguistiques
Lingrui Mei, Jiayu Yao, Yuyao Ge, et al.
il y a un mois

Évaluation des modèles mondiaux adaptatifs dans les machines à l'aide de nouveaux jeux
Lance Ying, Katherine M. Collins, Prafull Sharma, et al.
il y a un mois

Soutien Émotionnel avec la Génération de Dialogue Empathique Basée sur les MLLM
Shiquan Wang, Ruiyu Fang, Zhongjiang He, et al.
il y a un mois

DrafterBench : Évaluation des grands modèles de langage pour l'automatisation des tâches en génie civil
Yinsheng Li, Zhen Dong, Yi Shao
il y a un mois

SWE-Perf : Les modèles de langage peuvent-ils optimiser les performances du code dans des dépôts réels ?
Xinyi He, Qian Liu, Mingzhe Du, et al.
il y a un mois

MOSPA : Génération de mouvements humains pilotée par l'audio spatial
Shuyang Xu, Zhiyang Dou, Mingyi Shi, et al.
il y a un mois

MMHU : Un benchmark multimodal à grande échelle pour la compréhension du comportement humain
Renjie Li, Ruijie Ye, Mingyang Wu, et al.
il y a un mois

PhysX : Génération d'Actifs 3D Basée sur la Physique
Ziang Cao, Zhaoxi Chen, Linag Pan, et al.
il y a un mois

Vers une RAG agente avec un raisonnement profond : Une revue des systèmes de raisonnement RAG dans les LLMs
Yangning Li, Weizhi Zhang, Yuyao Yang, et al.
il y a un mois

La-Proteina : Génération de protéines au niveau atomique par appariement de flux partiellement latents
Tomas Geffner, Kieran Didi, Zhonglin Cao, et al.
il y a un mois

SUICA : Apprentissage de représentations neuronales implicites parcimonieuses en très haute dimension pour la transcriptomique spatiale
Qingtian Zhu, Yumin Zheng, Yuling Sang, et al.
il y a un mois

XiChen : Un système de prévision météorologique mondial entièrement piloté par l'IA, à l'échelle des observations, avec une connaissance variationnelle 4D
Wuxin Wang, Weicheng Ni, Lilan Huang, et al.
il y a un mois

AgentsNet : Coordination et Raisonnement Collaboratif dans les LLMs Multi-Agents
Florian Gr\u00f6tschla, Luis M\u00fcller, Jan T\u00f6nshoff, et al.
il y a un mois

Les modèles fondamentaux multimodaux peuvent-ils comprendre les diagrammes schématiques ? Une étude empirique sur la Q&A de recherche d'information dans les articles scientifiques
Yilun Zhao, Chengye Wang, Chuhan Li, et al.
il y a un mois

Lois d'échelle pour les mélanges de données optimaux
Mustafa Shukor, Louis Bethune, Dan Busbridge, et al.
il y a un mois

EXAONE 4.0 : Modèles de langage unifiés intégrant les modes non raisonnés et raisonnés
LG AI Research, Kyunghoon Bae, Eunbi Choi, et al.
il y a un mois

Génération d'images à partir de texte avec cohérence du sujet et diversité des poses
Zhanxin Gao, Beier Zhu, Liang Yao, et al.
il y a un mois

Vision-Langage-Vision Auto-Encodeur : Distillation de Connaissances Évolutives à Partir des Modèles de Diffusion
Tiezheng Zhang, Yitong Li, Yu-cheng Chou, et al.
il y a un mois

DuetGraph : Raisonnement dans les graphes de connaissances de manière grossière à fine avec une fusion globale-locale à double voie
Jin Li, Zezhong Ding, Xike Xie
il y a un mois