Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Eka-Eval : Un Cadre d'Évaluation Complet pour les Grands Modèles de Langue en Langues Indiennes

DynamiCare : Un Cadre Dynamique Multi-Agents pour la Prise de Décisions Médicales Interactive et Ouverte































Eka-Eval : Un Cadre d'Évaluation Complet pour les Grands Modèles de Langue en Langues Indiennes

DynamiCare : Un Cadre Dynamique Multi-Agents pour la Prise de Décisions Médicales Interactive et Ouverte






























Les Transformers basés sur l'énergie sont des apprenants et des penseurs évolutifs.
IntFold : Un modèle fondamental contrôlable pour la prédiction de la structure biomoléculaire générale et spécialisée
Écouter la Voix Intérieure : Alignement de l'Entraînement de ControlNet par le Biais des Caractéristiques Intermédiaires
Skywork-Reward-V2 : Échelle de curation des données de préférence par synergie humain-IA
LangScene-X : Reconstruire des scènes linguistiques 3D généralisables avec la diffusion vidéo TriMap
Penser avec des images pour le raisonnement multimodal : fondements, méthodes et frontières futures
WebSailor : Navigation de la Raison Supra-humaine pour un Agent Web
Agents de Recherche en IA pour l'Apprentissage Automatique : Recherche, Exploration et Généralisation dans MLE-bench
Décodage parallèle prenant en compte la localité pour une génération d'images autoregressive efficace
FreeMorph : Morphing d'images généralisé sans ajustement avec un modèle de diffusion
Une revue sur les modèles Vision-Langage-Action : Une perspective de tokenisation des actions
Profondeur : Tout à Toute Condition
LongAnimation : Génération d'animations longues avec une mémoire globale-locale dynamique
Rapport technique Kwai Keye-VL
Une revue des modèles Vision-Langage-Action pour la conduite autonome
MoCa : Formation continue modale améliore les plongements multimodaux bidirectionnels
FreeLong++ : Génération de vidéos longues sans entraînement via la fusion spectrale multi-bande
Penser au-delà des tokens : de l’intelligence inspirée par le cerveau aux fondements cognitifs de l’intelligence artificielle générale et son impact sociétal
Les Raisonnements Mathématiques Améliorent-ils les Capacités Générales des LLM ? Compréhension de la Transférabilité du Raisonnement des LLM
SciArena : Une plateforme d'évaluation ouverte pour les modèles de base dans les tâches de littérature scientifique
Intelligence Artificielle Holistique en Médecine ; Amélioration des Performances et de l'Explicabilité
Évolution des prompts en contexte : une perspective ouverte et auto-répliquante
SPIRAL : L'auto-jeu dans les jeux à somme nulle incite à la réflexion par le biais de l'apprentissage par renforcement multi-agents et multi-tours
Pensée Récompensée par l'Auditeur dans les VLMs pour les Préférences d'Images
Calligrapher : Personnalisation d'images textuelles en style libre
VMoBA : Mélange d'Attention par Blocs pour les Modèles de Diffusion Vidéo
SMMILE : Un Benchmark Dirigé par des Experts pour l'Apprentissage Multimodal Médical en Contexte
Le Benchmark Automatisé de Speedrunning pour les LLM : Reproduction des Améliorations de NanoGPT
Shape-for-Motion : Édition vidéo précise et cohérente avec un proxy 3D
De l’idéal au réel : Prédiction dense unifiée et efficace en données pour des scénarios du monde réel
Les Transformers basés sur l'énergie sont des apprenants et des penseurs évolutifs.
IntFold : Un modèle fondamental contrôlable pour la prédiction de la structure biomoléculaire générale et spécialisée
Écouter la Voix Intérieure : Alignement de l'Entraînement de ControlNet par le Biais des Caractéristiques Intermédiaires
Skywork-Reward-V2 : Échelle de curation des données de préférence par synergie humain-IA
LangScene-X : Reconstruire des scènes linguistiques 3D généralisables avec la diffusion vidéo TriMap
Penser avec des images pour le raisonnement multimodal : fondements, méthodes et frontières futures
WebSailor : Navigation de la Raison Supra-humaine pour un Agent Web
Agents de Recherche en IA pour l'Apprentissage Automatique : Recherche, Exploration et Généralisation dans MLE-bench
Décodage parallèle prenant en compte la localité pour une génération d'images autoregressive efficace
FreeMorph : Morphing d'images généralisé sans ajustement avec un modèle de diffusion
Une revue sur les modèles Vision-Langage-Action : Une perspective de tokenisation des actions
Profondeur : Tout à Toute Condition
LongAnimation : Génération d'animations longues avec une mémoire globale-locale dynamique
Rapport technique Kwai Keye-VL
Une revue des modèles Vision-Langage-Action pour la conduite autonome
MoCa : Formation continue modale améliore les plongements multimodaux bidirectionnels
FreeLong++ : Génération de vidéos longues sans entraînement via la fusion spectrale multi-bande
Penser au-delà des tokens : de l’intelligence inspirée par le cerveau aux fondements cognitifs de l’intelligence artificielle générale et son impact sociétal
Les Raisonnements Mathématiques Améliorent-ils les Capacités Générales des LLM ? Compréhension de la Transférabilité du Raisonnement des LLM
SciArena : Une plateforme d'évaluation ouverte pour les modèles de base dans les tâches de littérature scientifique
Intelligence Artificielle Holistique en Médecine ; Amélioration des Performances et de l'Explicabilité
Évolution des prompts en contexte : une perspective ouverte et auto-répliquante
SPIRAL : L'auto-jeu dans les jeux à somme nulle incite à la réflexion par le biais de l'apprentissage par renforcement multi-agents et multi-tours
Pensée Récompensée par l'Auditeur dans les VLMs pour les Préférences d'Images
Calligrapher : Personnalisation d'images textuelles en style libre
VMoBA : Mélange d'Attention par Blocs pour les Modèles de Diffusion Vidéo
SMMILE : Un Benchmark Dirigé par des Experts pour l'Apprentissage Multimodal Médical en Contexte
Le Benchmark Automatisé de Speedrunning pour les LLM : Reproduction des Améliorations de NanoGPT
Shape-for-Motion : Édition vidéo précise et cohérente avec un proxy 3D
De l’idéal au réel : Prédiction dense unifiée et efficace en données pour des scénarios du monde réel