Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

SWE-Debate : Débat multi-agents compétitif pour la résolution des problèmes logiciels

Segmentation de référence multimodale : une revue































SWE-Debate : Débat multi-agents compétitif pour la résolution des problèmes logiciels

Segmentation de référence multimodale : une revue






























3D-R1 : Amélioration du raisonnement dans les VLM 3D pour une compréhension unifiée des scènes
SWE-Exp : Résolution de problèmes logiciels pilotée par l'expérience
PixNerd : Diffusion des champs neuronaux de pixels
Au-delà du fixe : débruitage à longueur variable pour les grands modèles linguistiques à diffusion
Cognitive Kernel-Pro : un cadre pour les agents de recherche approfondie et l'entraînement des modèles fondamentaux d'agents
Co-production de l’IA : vers un cycle de vie augmenté et participatif
iLRM : un modèle itératif de reconstruction 3D de grande taille
villa-X : Amélioration de la modélisation des actions latentes dans les modèles vision-langage-action
C3 : Une base de données bilingue pour les modèles de dialogue parlé explorant les défis posés par les conversations complexes
Rapport technique de RecGPT
Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI
Seed-Prover : raisonnement profond et large pour la démonstration automatique de théorèmes
Moins, c’est plus pour la détection de la parole synthétique dans le monde réel
Sélection de ReLU locale versus globale : la MILP partielle fait son retour pour la vérification des réseaux de neurones profonds
CoT-Self-Instruct : Construction de promts synthétiques de haute qualité pour les tâches de raisonnement et non de raisonnement
Vers des expressions et raisonnements omnimodaux dans la segmentation audio-visuelle par référence
Adaptation de détecteurs de véhicules pour des images aériennes à des domaines inédits avec une supervision faible
VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé
Falcon-H1 : une famille de modèles linguistiques à tête hybride redéfinissant l'efficacité et les performances
BANG : Division de ressources 3D par dynamique éclatée générative
ScreenCoder : Progresser dans la génération visuelle vers le code pour l'automatisation du front-end grâce à des agents multimodaux modulaires
MIRepNet : Une chaîne de traitement et un modèle fondamental pour la classification de l’imagerie motrice à partir d’EEG
ChemDFM-R : Un raisonneur chimique basé sur un modèle linguistique grand (LLM) amélioré par des connaissances chimiques atomisées
X-Omni : Le apprentissage par renforcement rend aux modèles de génération d’images autoregressifs discrets leur grandeur d’antan
HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels
AlphaEarth Foundations : un modèle de champ d'embeddings pour une cartographie globale précise et efficace à partir de données étiquetées éparses
Vers une prévision à longue portée de l'ENSO à l'aide d'un modèle d'apprentissage profond explicite
OmniArch : Construction d'un modèle fondamental pour le calcul scientifique
UI-AGILE : Approfondir les agents d'interface utilisateur avec un apprentissage par renforcement efficace et une ancrage précis au moment de l'inférence
DualSG : Un cadre de prévision des séries temporelles multivariées à guide sémantique explicite à deux flux
3D-R1 : Amélioration du raisonnement dans les VLM 3D pour une compréhension unifiée des scènes
SWE-Exp : Résolution de problèmes logiciels pilotée par l'expérience
PixNerd : Diffusion des champs neuronaux de pixels
Au-delà du fixe : débruitage à longueur variable pour les grands modèles linguistiques à diffusion
Cognitive Kernel-Pro : un cadre pour les agents de recherche approfondie et l'entraînement des modèles fondamentaux d'agents
Co-production de l’IA : vers un cycle de vie augmenté et participatif
iLRM : un modèle itératif de reconstruction 3D de grande taille
villa-X : Amélioration de la modélisation des actions latentes dans les modèles vision-langage-action
C3 : Une base de données bilingue pour les modèles de dialogue parlé explorant les défis posés par les conversations complexes
Rapport technique de RecGPT
Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI
Seed-Prover : raisonnement profond et large pour la démonstration automatique de théorèmes
Moins, c’est plus pour la détection de la parole synthétique dans le monde réel
Sélection de ReLU locale versus globale : la MILP partielle fait son retour pour la vérification des réseaux de neurones profonds
CoT-Self-Instruct : Construction de promts synthétiques de haute qualité pour les tâches de raisonnement et non de raisonnement
Vers des expressions et raisonnements omnimodaux dans la segmentation audio-visuelle par référence
Adaptation de détecteurs de véhicules pour des images aériennes à des domaines inédits avec une supervision faible
VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé
Falcon-H1 : une famille de modèles linguistiques à tête hybride redéfinissant l'efficacité et les performances
BANG : Division de ressources 3D par dynamique éclatée générative
ScreenCoder : Progresser dans la génération visuelle vers le code pour l'automatisation du front-end grâce à des agents multimodaux modulaires
MIRepNet : Une chaîne de traitement et un modèle fondamental pour la classification de l’imagerie motrice à partir d’EEG
ChemDFM-R : Un raisonneur chimique basé sur un modèle linguistique grand (LLM) amélioré par des connaissances chimiques atomisées
X-Omni : Le apprentissage par renforcement rend aux modèles de génération d’images autoregressifs discrets leur grandeur d’antan
HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels
AlphaEarth Foundations : un modèle de champ d'embeddings pour une cartographie globale précise et efficace à partir de données étiquetées éparses
Vers une prévision à longue portée de l'ENSO à l'aide d'un modèle d'apprentissage profond explicite
OmniArch : Construction d'un modèle fondamental pour le calcul scientifique
UI-AGILE : Approfondir les agents d'interface utilisateur avec un apprentissage par renforcement efficace et une ancrage précis au moment de l'inférence
DualSG : Un cadre de prévision des séries temporelles multivariées à guide sémantique explicite à deux flux