Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

CryptoScope : Utilisation de modèles linguistiques à grande échelle pour la détection automatisée des vulnérabilités logiques en cryptographie

Medical Graph RAG : Vers un modèle linguistique massif médical sûr grâce à la génération augmentée par récupération graphique































CryptoScope : Utilisation de modèles linguistiques à grande échelle pour la détection automatisée des vulnérabilités logiques en cryptographie

Medical Graph RAG : Vers un modèle linguistique massif médical sûr grâce à la génération augmentée par récupération graphique






























Puppeteer : Animer et contrôler vos modèles 3D
STream3R : Reconstruction 3D séquentielle évolutif avec transformateur causal
PRÉLUDE : Un benchmark conçu pour exiger une compréhension et un raisonnement globaux sur des contextes longs
ToonComposer : Simplification de la production de bandes dessinées grâce à la post-création générative de cadrages
NextStep-1 : Vers une génération d’images autoregressive avec des tokens continus à grande échelle
We-Math 2.0 : un système MathBook polyvalent pour inciter au raisonnement mathématique visuel
COREVQA : Un benchmark de réponse aux questions visuelles par observation et raisonnement de foule
RelayFormer : un cadre unifié d'attention locale-global pour la localisation scalable de la manipulation d'images et de vidéos
GMF-Drive : Fusion Mamba à portes avec représentation BEV sensible à l'espace pour la conduite autonome bout-en-bout
Voir, écouter, se souvenir et raisonner : un agent multimodal doté d'une mémoire à long terme
Les LLMs à diffusion peuvent effectuer une inférence plus rapide que l'AR grâce à la contrainte de diffusion discrète
AWorld : Système multi-agents dynamique avec manœuvrabilité stable pour une résolution robuste du problème GAIA
Story2Board : Une approche sans entraînement pour la génération expressive de storyboards
Stand-In : un contrôle d'identité léger et plug-and-play pour la génération vidéo
Mol-R1 : Vers un raisonnement Long-CoT explicite dans la découverte de molécules
Llama-Nemotron : modèles de raisonnement efficaces
Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée
Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour améliorer la génération d'images
Coloration virtuelle de tissus sans marqueur dans la spectrométrie de masse par imagerie
VisCodex : Génération multimodale de code unifiée par fusion de modèles visuels et de codage
HierSearch : un cadre de recherche profonde hiérarchique pour les entreprises intégrant les recherches locales et web
Le temps est une caractéristique : exploitation des dynamiques temporelles dans les modèles linguistiques à diffusion
CharacterShot : Animation 4D contrôlable et cohérente de personnages
Au-delà de dix tours : déverrouiller la recherche agente à long terme grâce à un apprentissage par renforcement asynchrone à grande échelle
Matrix-3D : Génération de mondes 3D omnidirectionnels explorables
WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage
Rapport technique Marco-Voice
Aperçu de Kimina-Prover : Vers de grands modèles de raisonnement formel par apprentissage par renforcement
PyVeritas : Vérification de Python par transpilation basée sur les LLM et vérification bornée de modèles pour C
Agents de mémoire intrinsèque : systèmes multi-agents LLM hétérogènes par le biais d'une mémoire contextuelle structurée
Puppeteer : Animer et contrôler vos modèles 3D
STream3R : Reconstruction 3D séquentielle évolutif avec transformateur causal
PRÉLUDE : Un benchmark conçu pour exiger une compréhension et un raisonnement globaux sur des contextes longs
ToonComposer : Simplification de la production de bandes dessinées grâce à la post-création générative de cadrages
NextStep-1 : Vers une génération d’images autoregressive avec des tokens continus à grande échelle
We-Math 2.0 : un système MathBook polyvalent pour inciter au raisonnement mathématique visuel
COREVQA : Un benchmark de réponse aux questions visuelles par observation et raisonnement de foule
RelayFormer : un cadre unifié d'attention locale-global pour la localisation scalable de la manipulation d'images et de vidéos
GMF-Drive : Fusion Mamba à portes avec représentation BEV sensible à l'espace pour la conduite autonome bout-en-bout
Voir, écouter, se souvenir et raisonner : un agent multimodal doté d'une mémoire à long terme
Les LLMs à diffusion peuvent effectuer une inférence plus rapide que l'AR grâce à la contrainte de diffusion discrète
AWorld : Système multi-agents dynamique avec manœuvrabilité stable pour une résolution robuste du problème GAIA
Story2Board : Une approche sans entraînement pour la génération expressive de storyboards
Stand-In : un contrôle d'identité léger et plug-and-play pour la génération vidéo
Mol-R1 : Vers un raisonnement Long-CoT explicite dans la découverte de molécules
Llama-Nemotron : modèles de raisonnement efficaces
Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée
Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour améliorer la génération d'images
Coloration virtuelle de tissus sans marqueur dans la spectrométrie de masse par imagerie
VisCodex : Génération multimodale de code unifiée par fusion de modèles visuels et de codage
HierSearch : un cadre de recherche profonde hiérarchique pour les entreprises intégrant les recherches locales et web
Le temps est une caractéristique : exploitation des dynamiques temporelles dans les modèles linguistiques à diffusion
CharacterShot : Animation 4D contrôlable et cohérente de personnages
Au-delà de dix tours : déverrouiller la recherche agente à long terme grâce à un apprentissage par renforcement asynchrone à grande échelle
Matrix-3D : Génération de mondes 3D omnidirectionnels explorables
WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage
Rapport technique Marco-Voice
Aperçu de Kimina-Prover : Vers de grands modèles de raisonnement formel par apprentissage par renforcement
PyVeritas : Vérification de Python par transpilation basée sur les LLM et vérification bornée de modèles pour C
Agents de mémoire intrinsèque : systèmes multi-agents LLM hétérogènes par le biais d'une mémoire contextuelle structurée