Command Palette
Search for a command to run...
Papers
Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test

NVILA : Modèles linguistiques visuels pour les frontières efficaces































Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test

NVILA : Modèles linguistiques visuels pour les frontières efficaces






























VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage
Rapport technique Baichuan-Omni
MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux
Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin
CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos
Rapport technique Qwen2
Une image vaut 32 jetons pour la reconstruction et la génération
Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif
Meteor : Exploration basée sur Mamba des justifications pour les grands modèles linguistiques et visuels
FIFO-Diffusion : Génération de vidéos infinies à partir de texte sans entraînement
À quel point sommes-nous de GPT-4V ? Réduire l'écart avec les modèles multimodaux commerciaux grâce à des suites open source
Vers une amélioration autonome des modèles linguistiques massifs grâce à l'imagination, la recherche et la critique
Rapport technique OmniFusion
Les erreurs de prédiction des modèles d'apprentissage automatique sont inférieures à la précision de la DFT
SEAgent : Agent d'utilisation informatique auto-évolutive avec apprentissage autonome à partir de l'expérience
AMix-1 : Une voie vers un modèle fondamental de protéine évolutif à l'heure du test
CRINN : apprentissage par renforcement contrastif pour la recherche de voisins les plus proches approchés
Décalage de représentation : unifier la compression de jetons avec FlashAttention
CompassVerifier : un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats
LongVie : Génération contrôlable d'images vidéo ultra-longues guidée par multimodalité
Skywork UniPic : Modélisation autoregressive unifiée pour la compréhension visuelle et la génération
Seed Diffusion : un modèle linguistique de diffusion à grande échelle avec inférence à haute vitesse
Agent Lightning : Former N'IMPORTE QUELLE IA avec l'apprentissage par renforcement
Découverte algorithmique automatisée pour la détection des ondes gravitationnelles guidée par une recherche arborescente de Monte Carlo évolutionnaire informée par des modèles linguistiques
Au-delà du compromis : apprentissage par renforcement auto-supervisé pour la suivie d'instructions par les modèles de raisonnement
Rapport technique Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct
CellForge : conception agente de modèles cellulaires virtuels
SitEmb-v1.5 : Récupération dense consciente du contexte améliorée pour l'association sémantique et la compréhension des longs récits
RL-PLUS : Contrer la collapse de la frontière des capacités des MLG en apprentissage par renforcement par une optimisation hybride des politiques
GS-Occ3D : Reprojection de l'occupation uniquement visuelle à grande échelle avec le splatting gaussien
VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage
Rapport technique Baichuan-Omni
MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux
Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin
CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos
Rapport technique Qwen2
Une image vaut 32 jetons pour la reconstruction et la génération
Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif
Meteor : Exploration basée sur Mamba des justifications pour les grands modèles linguistiques et visuels
FIFO-Diffusion : Génération de vidéos infinies à partir de texte sans entraînement
À quel point sommes-nous de GPT-4V ? Réduire l'écart avec les modèles multimodaux commerciaux grâce à des suites open source
Vers une amélioration autonome des modèles linguistiques massifs grâce à l'imagination, la recherche et la critique
Rapport technique OmniFusion
Les erreurs de prédiction des modèles d'apprentissage automatique sont inférieures à la précision de la DFT
SEAgent : Agent d'utilisation informatique auto-évolutive avec apprentissage autonome à partir de l'expérience
AMix-1 : Une voie vers un modèle fondamental de protéine évolutif à l'heure du test
CRINN : apprentissage par renforcement contrastif pour la recherche de voisins les plus proches approchés
Décalage de représentation : unifier la compression de jetons avec FlashAttention
CompassVerifier : un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats
LongVie : Génération contrôlable d'images vidéo ultra-longues guidée par multimodalité
Skywork UniPic : Modélisation autoregressive unifiée pour la compréhension visuelle et la génération
Seed Diffusion : un modèle linguistique de diffusion à grande échelle avec inférence à haute vitesse
Agent Lightning : Former N'IMPORTE QUELLE IA avec l'apprentissage par renforcement
Découverte algorithmique automatisée pour la détection des ondes gravitationnelles guidée par une recherche arborescente de Monte Carlo évolutionnaire informée par des modèles linguistiques
Au-delà du compromis : apprentissage par renforcement auto-supervisé pour la suivie d'instructions par les modèles de raisonnement
Rapport technique Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct
CellForge : conception agente de modèles cellulaires virtuels
SitEmb-v1.5 : Récupération dense consciente du contexte améliorée pour l'association sémantique et la compréhension des longs récits
RL-PLUS : Contrer la collapse de la frontière des capacités des MLG en apprentissage par renforcement par une optimisation hybride des politiques
GS-Occ3D : Reprojection de l'occupation uniquement visuelle à grande échelle avec le splatting gaussien