Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Dommages cérébraux maximaux sans données ni optimisation : perturber les Neural Networks via des flips de sign-bit.

Élucider le biais SNR-t des Diffusion Probabilistic Models































Dommages cérébraux maximaux sans données ni optimisation : perturber les Neural Networks via des flips de sign-bit.

Élucider le biais SNR-t des Diffusion Probabilistic Models






























OCR multimodal : analyser n'importe quel élément à partir de documents
Granite-speech : des LLMs open-source sensibles à la parole dotés de fortes capacités d'ASR en anglais
Fish-Speech : Exploiter les Large Language Models pour une synthèse Text-to-Speech multilingue avancée
Suppression d'objets et d'interactions dans les vidéos
VoxCPM : une synthèse vocale sans tokenizer pour la génération de parole sensible au contexte et un clonage de voix ultra-réaliste
OmniVoice : Vers un Text-to-Speech omnilingue en Zero-Shot avec des Diffusion Language Models
Là où la vision devient texte : localisation du goulot d'étranglement du routage OCR dans les Vision-Language Models
OCR ou non ? Repenser l'extraction d'informations documentaires à l'ère des MLLMs à l'aide de jeux de données à grande échelle du monde réel
dnaHNet : un modèle de fondation hiérarchique et scalable pour l'apprentissage de séquences génomiques
Ordinateurs neuronaux
ASGuard : Activation-Scaling Guard pour atténuer les attaques de Targeted Jailbreaking
GlobalSplat : Un processus de 3D Gaussian Splatting efficient par Feed-Forward via des Global Scene Tokens
Comment fine-tuner un modèle de raisonnement ? Un cadre de coopération Teacher-Student pour synthétiser des données SFT cohérentes avec l'étudiant.
RAD-2 : Mise à l'échelle du Reinforcement Learning dans un framework Générateur-Discriminateur
DR3-Eval : Vers une évaluation réaliste et reproductible de la recherche approfondie (Deep Research).
HY-World 2.0 : Un Modèle de Monde Multi-Modal pour la Reconstruction, la Génération et la Simulation de Mondes 3D
pi0.7 : un modèle de fondation robotique généraliste et pilotable présentant des capacités émergentes
GTR : Le renforcement par la pensée guidée (Guided Thought Reinforcement) prévient l'effondrement de la pensée dans l'entraînement d'un Agent VLM basé sur le RL
Compétences des Agent pour les Large Language Models : Architecture, Acquisition, Sécurité et Perspectives d'Avenir
Théorie de l'espace : les Foundation Models peuvent-ils construire des croyances spatiales par l'exploration active ?
Apprentissage par transfert de mémoire : comment les mémoires sont transférées entre les domaines dans les Coding Agents
OccuBench : Évaluation des AI Agents sur des tâches professionnelles du monde réel via des Language World Models
SpatialEvo : Intelligence spatiale auto-évolutive via des environnements géométriques déterministes
RationalRewards : Utiliser les Reasoning Rewards pour mettre à l'échelle la génération visuelle au moment de l'entraînement et de l'inférence.
Seedance 2.0 : Faire progresser la génération de vidéo pour la complexité du monde.
GameWorld : Vers une évaluation standardisée et vérifiable des agents de jeux multimodaux
Pansharpening multi-échelle via ScaleFormer et le benchmark PanScale
ParseBench : un benchmark de parsing de documents pour les AI Agents
Agent d'Intelligence Mémoire
PROPELLA-1 : ANNOTATION DE DOCUMENTS MULTI-PROPRIÉTÉS POUR LA CURATION DE DONNÉES LLM À GRANDE ÉCHELLE
OCR multimodal : analyser n'importe quel élément à partir de documents
Granite-speech : des LLMs open-source sensibles à la parole dotés de fortes capacités d'ASR en anglais
Fish-Speech : Exploiter les Large Language Models pour une synthèse Text-to-Speech multilingue avancée
Suppression d'objets et d'interactions dans les vidéos
VoxCPM : une synthèse vocale sans tokenizer pour la génération de parole sensible au contexte et un clonage de voix ultra-réaliste
OmniVoice : Vers un Text-to-Speech omnilingue en Zero-Shot avec des Diffusion Language Models
Là où la vision devient texte : localisation du goulot d'étranglement du routage OCR dans les Vision-Language Models
OCR ou non ? Repenser l'extraction d'informations documentaires à l'ère des MLLMs à l'aide de jeux de données à grande échelle du monde réel
dnaHNet : un modèle de fondation hiérarchique et scalable pour l'apprentissage de séquences génomiques
Ordinateurs neuronaux
ASGuard : Activation-Scaling Guard pour atténuer les attaques de Targeted Jailbreaking
GlobalSplat : Un processus de 3D Gaussian Splatting efficient par Feed-Forward via des Global Scene Tokens
Comment fine-tuner un modèle de raisonnement ? Un cadre de coopération Teacher-Student pour synthétiser des données SFT cohérentes avec l'étudiant.
RAD-2 : Mise à l'échelle du Reinforcement Learning dans un framework Générateur-Discriminateur
DR3-Eval : Vers une évaluation réaliste et reproductible de la recherche approfondie (Deep Research).
HY-World 2.0 : Un Modèle de Monde Multi-Modal pour la Reconstruction, la Génération et la Simulation de Mondes 3D
pi0.7 : un modèle de fondation robotique généraliste et pilotable présentant des capacités émergentes
GTR : Le renforcement par la pensée guidée (Guided Thought Reinforcement) prévient l'effondrement de la pensée dans l'entraînement d'un Agent VLM basé sur le RL
Compétences des Agent pour les Large Language Models : Architecture, Acquisition, Sécurité et Perspectives d'Avenir
Théorie de l'espace : les Foundation Models peuvent-ils construire des croyances spatiales par l'exploration active ?
Apprentissage par transfert de mémoire : comment les mémoires sont transférées entre les domaines dans les Coding Agents
OccuBench : Évaluation des AI Agents sur des tâches professionnelles du monde réel via des Language World Models
SpatialEvo : Intelligence spatiale auto-évolutive via des environnements géométriques déterministes
RationalRewards : Utiliser les Reasoning Rewards pour mettre à l'échelle la génération visuelle au moment de l'entraînement et de l'inférence.
Seedance 2.0 : Faire progresser la génération de vidéo pour la complexité du monde.
GameWorld : Vers une évaluation standardisée et vérifiable des agents de jeux multimodaux
Pansharpening multi-échelle via ScaleFormer et le benchmark PanScale
ParseBench : un benchmark de parsing de documents pour les AI Agents
Agent d'Intelligence Mémoire
PROPELLA-1 : ANNOTATION DE DOCUMENTS MULTI-PROPRIÉTÉS POUR LA CURATION DE DONNÉES LLM À GRANDE ÉCHELLE