Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Mini-o3 : Échelle des schémas de raisonnement et du nombre d’échanges pour la recherche visuelle

Alignement de représentation visuelle pour les grands modèles linguistiques multimodaux































Mini-o3 : Échelle des schémas de raisonnement et du nombre d’échanges pour la recherche visuelle

Alignement de représentation visuelle pour les grands modèles linguistiques multimodaux






























Parallel-R1 : Vers une pensée parallèle par apprentissage par renforcement
WenetSpeech-Yue : un corpus parlé de cantonais à grande échelle avec annotation multidimensionnelle
SheetDesigner : Génération de disposition de feuille de calcul pilotée par MLLM avec réflexion fondée sur des règles et réflexion fondée sur la vision
L'évolution autonome du code rencontre la NP-complétude
Fondements du apprentissage par renforcement pour les systèmes de recherche profonde : Une revue
Perception visuelle renforcée par l'outil
DINOv3 établit-il une nouvelle norme pour la vision médicale ?
Révolutionner le cadre d'apprentissage par renforcement pour les grands modèles linguistiques de diffusion
WebExplorer : Explorer et évoluer pour former des agents web à horizon long
Raisonnement par ingénierie inverse pour la génération ouverte
OSC : Orchestration cognitive par alignement dynamique des connaissances dans la collaboration multi-agents basée sur les grands modèles linguistiques
CURE : Désapprentissage contrôlé pour des embeddings robustes – Atténuation des raccourcis conceptuels dans les modèles linguistiques pré-entraînés
MedVista3D : Modélisation vision-langage pour la réduction des erreurs diagnostiques dans la détection, la compréhension et la rédaction des rapports des maladies à partir de scanners 3D
LuxDiT : Estimation d'éclairage avec un transformateur à diffusion vidéo
WildScore : Évaluation des MLLM en raisonnement musical symbolique dans des conditions réelles
Set Block Decoding est un accélérateur d'inférence pour les modèles de langage
Programmation graphique symbolique avec des grands modèles linguistiques
Pourquoi les modèles linguistiques font-ils des hallucinations
LatticeWorld : Un cadre alimenté par un grand modèle linguistique multimodal pour la génération interactive de mondes complexes
Recomposer : édition audio générique guidée par le roll d'événements
Modèles de transition : Repenser l'objectif d'apprentissage génératif
Inverse IFEval : Les LLM peuvent-ils désapprendre des conventions d'entraînement tenaces afin de suivre des instructions réelles ?
DeepResearch Arena : Le premier examen des capacités de recherche des modèles linguistiques à grande échelle au travers de tâches fondées sur des séminaires
Vers une vision unifiée de l'après-formation des grands modèles linguistiques
Du rédacteur à l'estimateur de géométrie dense
Drivel-ologie : Mettre les LLM au défi en interprétant le non-sens avec profondeur
Loong : Synthétiser à grande échelle des chaînes de raisonnement longues grâce à des vérificateurs
ArcMemo : Composition raisonnement abstrait avec une mémoire de modèle linguistique évolutif
CoT-Space : un cadre théorique pour la pensée lente interne par apprentissage par renforcement
Suivi de points 3D à vue multiple
Parallel-R1 : Vers une pensée parallèle par apprentissage par renforcement
WenetSpeech-Yue : un corpus parlé de cantonais à grande échelle avec annotation multidimensionnelle
SheetDesigner : Génération de disposition de feuille de calcul pilotée par MLLM avec réflexion fondée sur des règles et réflexion fondée sur la vision
L'évolution autonome du code rencontre la NP-complétude
Fondements du apprentissage par renforcement pour les systèmes de recherche profonde : Une revue
Perception visuelle renforcée par l'outil
DINOv3 établit-il une nouvelle norme pour la vision médicale ?
Révolutionner le cadre d'apprentissage par renforcement pour les grands modèles linguistiques de diffusion
WebExplorer : Explorer et évoluer pour former des agents web à horizon long
Raisonnement par ingénierie inverse pour la génération ouverte
OSC : Orchestration cognitive par alignement dynamique des connaissances dans la collaboration multi-agents basée sur les grands modèles linguistiques
CURE : Désapprentissage contrôlé pour des embeddings robustes – Atténuation des raccourcis conceptuels dans les modèles linguistiques pré-entraînés
MedVista3D : Modélisation vision-langage pour la réduction des erreurs diagnostiques dans la détection, la compréhension et la rédaction des rapports des maladies à partir de scanners 3D
LuxDiT : Estimation d'éclairage avec un transformateur à diffusion vidéo
WildScore : Évaluation des MLLM en raisonnement musical symbolique dans des conditions réelles
Set Block Decoding est un accélérateur d'inférence pour les modèles de langage
Programmation graphique symbolique avec des grands modèles linguistiques
Pourquoi les modèles linguistiques font-ils des hallucinations
LatticeWorld : Un cadre alimenté par un grand modèle linguistique multimodal pour la génération interactive de mondes complexes
Recomposer : édition audio générique guidée par le roll d'événements
Modèles de transition : Repenser l'objectif d'apprentissage génératif
Inverse IFEval : Les LLM peuvent-ils désapprendre des conventions d'entraînement tenaces afin de suivre des instructions réelles ?
DeepResearch Arena : Le premier examen des capacités de recherche des modèles linguistiques à grande échelle au travers de tâches fondées sur des séminaires
Vers une vision unifiée de l'après-formation des grands modèles linguistiques
Du rédacteur à l'estimateur de géométrie dense
Drivel-ologie : Mettre les LLM au défi en interprétant le non-sens avec profondeur
Loong : Synthétiser à grande échelle des chaînes de raisonnement longues grâce à des vérificateurs
ArcMemo : Composition raisonnement abstrait avec une mémoire de modèle linguistique évolutif
CoT-Space : un cadre théorique pour la pensée lente interne par apprentissage par renforcement
Suivi de points 3D à vue multiple