Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Le Y-Combinator pour les LLMs : Résolution de la dégradation du contexte long par le λ-calcul

ProactiveBench : Évaluation de la proactivité dans les LLM multimodaux































Le Y-Combinator pour les LLMs : Résolution de la dégradation du contexte long par le λ-calcul

ProactiveBench : Évaluation de la proactivité dans les LLM multimodaux






























TerraScope : Raisonnement visuel ancré au niveau du pixel pour l'observation de la Terre
Astrolabe : Pilotage de l'apprentissage par renforcement du processus avant pour les modèles vidéo autorégressifs distillés
HopChain : Synthèse de données multi-sauts pour un raisonnement vision-langage généralisable
Relier les conditions sémantiques et cinématiques à l'aide d'un tokenizer de mouvement discret basé sur Diffusion
FASTER : Repenser les VLA à flux temps réel
3DreamBooth : Modèle de génération vidéo piloté par sujet 3D à haute fidélité
SAMA : Ancrage sémantique factorisé et alignement du mouvement pour l'édition vidéo guidée par instructions
Les modèles de génération connaissent l'espace : libérer les priors 3D implicites pour la compréhension de scène
Raisonnement efficace avec une pensée équilibrée
Regarder avant d'agir : amélioration des représentations de fondation visuelles pour les modèles vision-langage-action
Apprentissage par renforcement complémentaire
L'alignement rend les LLM normatifs, et non descriptifs.
MosaicMem : mémoire spatiale hybride pour des modèles mondiaux vidéo contrôlables
MetaClaw : Il suffit de parler — un Agent qui méta-apprend et évolue à l'état sauvage
Video-CoE : Renforcer la prédiction d'événements vidéo via une Chain of Events
FunCineForge : un toolkit de dataset unifié et un modèle pour le doublage de films en zero-shot dans diverses scènes cinématographiques
Watermarking in-context pour les Large Language Models
WorldCam : Mondes de jeu 3D interactifs et autorégressifs avec la pose de caméra comme représentation géométrique unificatrice
Démystifier le raisonnement vidéo
Kinema4D : Modélisation cinématique du monde en 4D pour la simulation incarnée spatio-temporelle
Qianfan-OCR : un modèle unifié de bout en bout pour l'intelligence documentaire
InCoder-32B : modèle fondationnel de code pour des scénarios industriels
MiroThinker-1.7 & H1 : Vers des agents de recherche de haute performance par la vérification
HSImul3R : Reconstruction en boucle fermée intégrant la physique pour des interactions humain-scène prêtes à la simulation
Attention de type mélange de profondeurs
Résidus d'attention
Ancrage des modèles de simulation du monde dans une métropole réelle
OpenSeeker : démocratisation des agents de recherche de pointe par la mise entièrement open source des données d'entraînement
L'IA peut acquérir le goût scientifique.
MM-CondChain : une référence vérifiée algorithmiquement pour le raisonnement compositionnel profond ancré visuellement
TerraScope : Raisonnement visuel ancré au niveau du pixel pour l'observation de la Terre
Astrolabe : Pilotage de l'apprentissage par renforcement du processus avant pour les modèles vidéo autorégressifs distillés
HopChain : Synthèse de données multi-sauts pour un raisonnement vision-langage généralisable
Relier les conditions sémantiques et cinématiques à l'aide d'un tokenizer de mouvement discret basé sur Diffusion
FASTER : Repenser les VLA à flux temps réel
3DreamBooth : Modèle de génération vidéo piloté par sujet 3D à haute fidélité
SAMA : Ancrage sémantique factorisé et alignement du mouvement pour l'édition vidéo guidée par instructions
Les modèles de génération connaissent l'espace : libérer les priors 3D implicites pour la compréhension de scène
Raisonnement efficace avec une pensée équilibrée
Regarder avant d'agir : amélioration des représentations de fondation visuelles pour les modèles vision-langage-action
Apprentissage par renforcement complémentaire
L'alignement rend les LLM normatifs, et non descriptifs.
MosaicMem : mémoire spatiale hybride pour des modèles mondiaux vidéo contrôlables
MetaClaw : Il suffit de parler — un Agent qui méta-apprend et évolue à l'état sauvage
Video-CoE : Renforcer la prédiction d'événements vidéo via une Chain of Events
FunCineForge : un toolkit de dataset unifié et un modèle pour le doublage de films en zero-shot dans diverses scènes cinématographiques
Watermarking in-context pour les Large Language Models
WorldCam : Mondes de jeu 3D interactifs et autorégressifs avec la pose de caméra comme représentation géométrique unificatrice
Démystifier le raisonnement vidéo
Kinema4D : Modélisation cinématique du monde en 4D pour la simulation incarnée spatio-temporelle
Qianfan-OCR : un modèle unifié de bout en bout pour l'intelligence documentaire
InCoder-32B : modèle fondationnel de code pour des scénarios industriels
MiroThinker-1.7 & H1 : Vers des agents de recherche de haute performance par la vérification
HSImul3R : Reconstruction en boucle fermée intégrant la physique pour des interactions humain-scène prêtes à la simulation
Attention de type mélange de profondeurs
Résidus d'attention
Ancrage des modèles de simulation du monde dans une métropole réelle
OpenSeeker : démocratisation des agents de recherche de pointe par la mise entièrement open source des données d'entraînement
L'IA peut acquérir le goût scientifique.
MM-CondChain : une référence vérifiée algorithmiquement pour le raisonnement compositionnel profond ancré visuellement