Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Modèle de Fondation Mondiale Interactif : Matrix-Game

AnimaX : Animer l'inanimé en 3D avec des modèles de diffusion vidéo-pose conjointe































Modèle de Fondation Mondiale Interactif : Matrix-Game

AnimaX : Animer l'inanimé en 3D avec des modèles de diffusion vidéo-pose conjointe






























Approche d'apprentissage pour un suivi actif et efficace d'une cible volante par un véhicule aérien non piloté
TritonZ : Un Véhicule Sous-Marin Téléguidé avec Bras Manipulateur pour les Opérations d'Exploration et de Secours
ReasonFlux-PRM : PRMs Trajectoire-Conscients pour la Raisonnement à Longue Chaîne de Pensée dans les LLMs
Phantom-Data : Vers un Jeu de Données Général pour la Génération Vidéo Cohérente avec le Sujet
RLPR : Extrapolation de RLVR à des domaines généraux sans vérificateurs
LongWriter-Zero : Maîtrise de la Génération de Textes Ultra-Longs par Apprentissage par Renforcement
Lumière des Normales : Représentation Unifiée des Caractéristiques pour la Stéréophotométrie Universelle
Prédiction des réponses cellulaires à la perturbation dans divers contextes avec l'état
CodeDiffuser : Politique de diffusion améliorée par l'attention via un code généré par VLM pour la résolution de l'ambiguïté des instructions
Optimisation de la synthèse vocale multilingue avec accents et émotions
VIKI-R : Coordination de la coopération multi-agent incarnée par apprentissage par renforcement
PAROAttention : Réorganisation Consciente des Modèles pour une Attention Efficace et Économique en Termes de Ressources dans les Modèles de Génération Visuelle
Vision-Guided Chunking Is All You Need : Amélioration de RAG avec la Compréhension Multimodale des Documents
Glisser-Déposer les LLM : Passez des Prompts aux Poids sans Supervision Préalable
Mise en cache évolutionnelle pour accélérer votre modèle de diffusion prêt à l'emploi
RE-IMAGINE : Synthèse de Benchmark Symbolique pour l'Évaluation de la Raisonnement
SonicVerse : Apprentissage multi-tâches pour la légendisation guidée par les caractéristiques musicales
Tout n'est pas perdu : la récupération des LLM sans points de contrôle
Sundial : Une Famille de Modèles Fondamentaux de Série Temporelle Hautement Performants
ADRD : Conduite Autonome Pilotée par des Systèmes de Décision Basés sur des Règles et les Modèles Linguistiques de Grande Envergure
Amélioration de l'affinage itératif pour la génération de code à partir de diagrammes via des instructions structurées
Show-O2 : Amélioration des Modèles Multimodaux Unifiés Natifs
Réexaminer l'apprentissage par renforcement pour la raisonnement des LLM sous une perspective interdomaine
Raptor : Embeddings évolutifs sans entraînement pour des volumes médicaux 3D en exploitant des modèles préentraînés 2D
EmoNet-Voice : Une Benchmark Fine-Grainée Vérifiée par des Experts pour la Détection des Émotions dans la Parole
s1 : Échelle simple au moment du test
Search-o1 : Modèles de raisonnement massifs améliorés par une recherche agente
LLaVA-Mini : Modèles multimodaux grands efficaces pour l’image et la vidéo avec un seul jeton visuel
MAmmoTH-VL : Extraire le raisonnement multimodal par calibration d'instructions à grande échelle
ShowUI : Un modèle vision-langage-action unique pour un agent visuel GUI
Approche d'apprentissage pour un suivi actif et efficace d'une cible volante par un véhicule aérien non piloté
TritonZ : Un Véhicule Sous-Marin Téléguidé avec Bras Manipulateur pour les Opérations d'Exploration et de Secours
ReasonFlux-PRM : PRMs Trajectoire-Conscients pour la Raisonnement à Longue Chaîne de Pensée dans les LLMs
Phantom-Data : Vers un Jeu de Données Général pour la Génération Vidéo Cohérente avec le Sujet
RLPR : Extrapolation de RLVR à des domaines généraux sans vérificateurs
LongWriter-Zero : Maîtrise de la Génération de Textes Ultra-Longs par Apprentissage par Renforcement
Lumière des Normales : Représentation Unifiée des Caractéristiques pour la Stéréophotométrie Universelle
Prédiction des réponses cellulaires à la perturbation dans divers contextes avec l'état
CodeDiffuser : Politique de diffusion améliorée par l'attention via un code généré par VLM pour la résolution de l'ambiguïté des instructions
Optimisation de la synthèse vocale multilingue avec accents et émotions
VIKI-R : Coordination de la coopération multi-agent incarnée par apprentissage par renforcement
PAROAttention : Réorganisation Consciente des Modèles pour une Attention Efficace et Économique en Termes de Ressources dans les Modèles de Génération Visuelle
Vision-Guided Chunking Is All You Need : Amélioration de RAG avec la Compréhension Multimodale des Documents
Glisser-Déposer les LLM : Passez des Prompts aux Poids sans Supervision Préalable
Mise en cache évolutionnelle pour accélérer votre modèle de diffusion prêt à l'emploi
RE-IMAGINE : Synthèse de Benchmark Symbolique pour l'Évaluation de la Raisonnement
SonicVerse : Apprentissage multi-tâches pour la légendisation guidée par les caractéristiques musicales
Tout n'est pas perdu : la récupération des LLM sans points de contrôle
Sundial : Une Famille de Modèles Fondamentaux de Série Temporelle Hautement Performants
ADRD : Conduite Autonome Pilotée par des Systèmes de Décision Basés sur des Règles et les Modèles Linguistiques de Grande Envergure
Amélioration de l'affinage itératif pour la génération de code à partir de diagrammes via des instructions structurées
Show-O2 : Amélioration des Modèles Multimodaux Unifiés Natifs
Réexaminer l'apprentissage par renforcement pour la raisonnement des LLM sous une perspective interdomaine
Raptor : Embeddings évolutifs sans entraînement pour des volumes médicaux 3D en exploitant des modèles préentraînés 2D
EmoNet-Voice : Une Benchmark Fine-Grainée Vérifiée par des Experts pour la Détection des Émotions dans la Parole
s1 : Échelle simple au moment du test
Search-o1 : Modèles de raisonnement massifs améliorés par une recherche agente
LLaVA-Mini : Modèles multimodaux grands efficaces pour l’image et la vidéo avec un seul jeton visuel
MAmmoTH-VL : Extraire le raisonnement multimodal par calibration d'instructions à grande échelle
ShowUI : Un modèle vision-langage-action unique pour un agent visuel GUI