Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Voxtral TTS

RealRestorer : Vers une restauration d'images réalistes généralisable grâce à des modèles d'édition d'images à grande échelle

Calibri : Amélioration des Diffusion Transformers par un étalonnage efficace en paramètres

Intern-S1-Pro : Modèle fondation multimodal scientifique à l'échelle du trillion

PixelSmile : Vers une édition fine des expressions faciales

Claudini : AutoResearch découvre des algorithmes d'attaque adversaire de pointe pour les LLM

AutoHarness : Améliorer les LLM Agents par la synthèse automatique d'un Code Harness

GameplayQA : Un cadre d'évaluation pour la compréhension multimédia synchronisée à la perspective subjective de vidéos multiples, dense en décisions, appliquée aux agents virtuels 3D.

Pourquoi l'auto-distillation (parfois) dégrade-t-elle les capacités de raisonnement des LLMs ?

UI-Voyager : Un agent GUI auto-évoluant apprenant à partir d'expériences échouées

T-MAP : Red-Teaming des agents LLM par une recherche évolutive consciente des trajectoires

CUA-Suite : Masses de démonstrations vidéo annotées par des humains pour les agents d'utilisation d'ordinateurs

EVA : Apprentissage par renforcement efficace pour un Agent Vidéo de bout en bout

Diffusion Foveated : Génération efficiente d'images et de vidéos par adaptation spatiale

Ego2Web : Un benchmark pour Web Agent fondé sur des vidéos égocentrées

Des modèles statiques aux graphes d'exécution dynamiques : une étude de l'optimisation des workflows pour les LLM Agents

SpecEyes : Accélération des LLMs multimodaux agentic grâce à une perception et une planification spéculatives

DA-Flow : Estimation du flot optique consciente de la dégradation avec des modèles Diffusion

PEARL : Modèle de compréhension personnalisée des vidéos en flux

WildWorld : un jeu de données à grande échelle pour la modélisation dynamique du monde avec actions et état explicite en vue de la génération d'ARPG

MinerU-Diffusion : Repenser l'OCR de documents comme un rendu inverse via le décodage par Diffusion

PivotRL : Post-Training Agentic de haute précision à faible coût de calcul

F4Splat : Densification prédictive feed-forward pour le 3D Gaussian Splatting feed-forward

SpatialBoost : Renforcement de la représentation visuelle par un raisonnement guidé par le langage

VideoDetective : Chasse aux indices par requête extrinsèque et pertinence intrinsèque pour la compréhension de vidéos longues

LongCat-Flash-Prover : Faire progresser le raisonnement formel natif grâce à l'apprentissage par renforcement intégré aux outils agentic

Vitesse par la simplicité : une architecture à flux unique pour un modèle fondatif génératif audio-vidéo rapide

Omni-WorldBench : Vers une évaluation complète centrée sur l'interaction pour les modèles du monde

PrismAudio : Chaînes de raisonnement décomposées et récompenses multidimensionnelles pour la génération audio à partir de vidéos

LeWorldModel : Architecture prédictive à jointure d'incrustation stable et de bout en bout, depuis les pixels

FlowScene : Génération de scènes intérieures cohérentes sur le plan stylistique par rectification de flux à graphe multimodal

LumosX : Relier toute identité à ses attributs pour une génération vidéo personnalisée

Voxtral TTS

RealRestorer : Vers une restauration d'images réalistes généralisable grâce à des modèles d'édition d'images à grande échelle

Calibri : Amélioration des Diffusion Transformers par un étalonnage efficace en paramètres

Intern-S1-Pro : Modèle fondation multimodal scientifique à l'échelle du trillion

PixelSmile : Vers une édition fine des expressions faciales

Claudini : AutoResearch découvre des algorithmes d'attaque adversaire de pointe pour les LLM

AutoHarness : Améliorer les LLM Agents par la synthèse automatique d'un Code Harness

GameplayQA : Un cadre d'évaluation pour la compréhension multimédia synchronisée à la perspective subjective de vidéos multiples, dense en décisions, appliquée aux agents virtuels 3D.

Pourquoi l'auto-distillation (parfois) dégrade-t-elle les capacités de raisonnement des LLMs ?

UI-Voyager : Un agent GUI auto-évoluant apprenant à partir d'expériences échouées

T-MAP : Red-Teaming des agents LLM par une recherche évolutive consciente des trajectoires

CUA-Suite : Masses de démonstrations vidéo annotées par des humains pour les agents d'utilisation d'ordinateurs

EVA : Apprentissage par renforcement efficace pour un Agent Vidéo de bout en bout

Diffusion Foveated : Génération efficiente d'images et de vidéos par adaptation spatiale

Ego2Web : Un benchmark pour Web Agent fondé sur des vidéos égocentrées

Des modèles statiques aux graphes d'exécution dynamiques : une étude de l'optimisation des workflows pour les LLM Agents

SpecEyes : Accélération des LLMs multimodaux agentic grâce à une perception et une planification spéculatives

DA-Flow : Estimation du flot optique consciente de la dégradation avec des modèles Diffusion

PEARL : Modèle de compréhension personnalisée des vidéos en flux

WildWorld : un jeu de données à grande échelle pour la modélisation dynamique du monde avec actions et état explicite en vue de la génération d'ARPG

MinerU-Diffusion : Repenser l'OCR de documents comme un rendu inverse via le décodage par Diffusion

PivotRL : Post-Training Agentic de haute précision à faible coût de calcul

F4Splat : Densification prédictive feed-forward pour le 3D Gaussian Splatting feed-forward

SpatialBoost : Renforcement de la représentation visuelle par un raisonnement guidé par le langage

VideoDetective : Chasse aux indices par requête extrinsèque et pertinence intrinsèque pour la compréhension de vidéos longues

LongCat-Flash-Prover : Faire progresser le raisonnement formel natif grâce à l'apprentissage par renforcement intégré aux outils agentic

Vitesse par la simplicité : une architecture à flux unique pour un modèle fondatif génératif audio-vidéo rapide

Omni-WorldBench : Vers une évaluation complète centrée sur l'interaction pour les modèles du monde

PrismAudio : Chaînes de raisonnement décomposées et récompenses multidimensionnelles pour la génération audio à partir de vidéos

LeWorldModel : Architecture prédictive à jointure d'incrustation stable et de bout en bout, depuis les pixels

FlowScene : Génération de scènes intérieures cohérentes sur le plan stylistique par rectification de flux à graphe multimodal

LumosX : Relier toute identité à ses attributs pour une génération vidéo personnalisée