Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Synthèse d'images et de géométrie sous un angle de vue nouveau alignées par l'instillation d'attention intermodale

VRBench : Un benchmark pour le raisonnement en plusieurs étapes dans les vidéos narratives longues































Synthèse d'images et de géométrie sous un angle de vue nouveau alignées par l'instillation d'attention intermodale

VRBench : Un benchmark pour le raisonnement en plusieurs étapes dans les vidéos narratives longues






























AniMaker : Narration animée multi-agents automatisée avec génération de clips pilotée par MCTS
Restauration d'images text-aware avec des modèles de diffusion
Magistral
SWE-Factory : Votre usine automatisée pour les données d'entraînement de résolution des problèmes et les benchmarks d'évaluation
ReasonMed : Un Jeu de Données Généré par 370 000 Agents Multiples pour l’Avancement du Raisonnement Médical
Sapiens : Fondation pour les modèles de vision humaine
LongVILA : Extension des modèles linguistiques visuels à longue portée pour les vidéos longues
SAM 2 : Segmenter n'importe quoi dans les images et les vidéos
Le troupeau de modèles Llama 3
InternLM-XComposer-2.5 : un modèle de vision et de langage massif polyvalent prenant en charge les entrées et sorties à longue portée
MMDU : Une base de benchmark pour la compréhension des dialogues à plusieurs tours et à plusieurs images, et un jeu de données pour l'ajustage par instruction des LVLM
Qu'est-ce qui compte lors de la construction de modèles vision-langage ?
DDOS : Jeu de données pour la segmentation de la profondeur des drones et des obstacles
Auto-Régressif vs Appariement de Flux : une Étude Comparative des Paradigmes de Modélisation pour la Génération Musique à Partir du Texte
SeerAttention-R : Adaptation de l'attention parcimonieuse pour le raisonnement à long terme
JoueurUn : Simulateur de Monde Égocentrique
ComfyUI-R1 : Exploration des modèles de raisonnement pour la génération de flux de travail
Formation par post-entraînement adversaire autoregressif pour la génération de vidéos interactives en temps réel
Confiance est tout ce dont vous avez besoin : Ajustement fin de modèles de langage par apprentissage par renforcement à faible échantillonnage
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
vLLM Hook v0 : Un module enfichable pour les internes du modèle de programmation sur vLLM
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Un cadre de déploiement flexible et sécurisé pour les applications distribuées
Pré-entraînement multimodal et génération pour la recommandation : un tutoriel
AniMaker : Narration animée multi-agents automatisée avec génération de clips pilotée par MCTS
Restauration d'images text-aware avec des modèles de diffusion
Magistral
SWE-Factory : Votre usine automatisée pour les données d'entraînement de résolution des problèmes et les benchmarks d'évaluation
ReasonMed : Un Jeu de Données Généré par 370 000 Agents Multiples pour l’Avancement du Raisonnement Médical
Sapiens : Fondation pour les modèles de vision humaine
LongVILA : Extension des modèles linguistiques visuels à longue portée pour les vidéos longues
SAM 2 : Segmenter n'importe quoi dans les images et les vidéos
Le troupeau de modèles Llama 3
InternLM-XComposer-2.5 : un modèle de vision et de langage massif polyvalent prenant en charge les entrées et sorties à longue portée
MMDU : Une base de benchmark pour la compréhension des dialogues à plusieurs tours et à plusieurs images, et un jeu de données pour l'ajustage par instruction des LVLM
Qu'est-ce qui compte lors de la construction de modèles vision-langage ?
DDOS : Jeu de données pour la segmentation de la profondeur des drones et des obstacles
Auto-Régressif vs Appariement de Flux : une Étude Comparative des Paradigmes de Modélisation pour la Génération Musique à Partir du Texte
SeerAttention-R : Adaptation de l'attention parcimonieuse pour le raisonnement à long terme
JoueurUn : Simulateur de Monde Égocentrique
ComfyUI-R1 : Exploration des modèles de raisonnement pour la génération de flux de travail
Formation par post-entraînement adversaire autoregressif pour la génération de vidéos interactives en temps réel
Confiance est tout ce dont vous avez besoin : Ajustement fin de modèles de langage par apprentissage par renforcement à faible échantillonnage
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
vLLM Hook v0 : Un module enfichable pour les internes du modèle de programmation sur vLLM
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Le titre est vide. Veuillez fournir le titre à traduire.
Un cadre de déploiement flexible et sécurisé pour les applications distribuées
Pré-entraînement multimodal et génération pour la recommandation : un tutoriel