Command Palette
Search for a command to run...
Wiki
Nous avons compilé des centaines d'entrées connexes pour vous aider à comprendre "l'intelligence artificielle"
L'objectif principal du cadre UDK-VQA est d'améliorer les modèles de langage de vision à grande échelle (LVLM) existants pour leur permettre de gérer les réponses visuelles aux questions (VQA) avec des connaissances de pointe.
Le framework SearchLVLMs peut améliorer considérablement les performances des LVLM pour répondre aux questions qui nécessitent des connaissances de pointe.
Le framework LLMxMapReduce brise les limitations de mémoire des grands modèles et atteint théoriquement la capacité de traitement du contexte de « longueur infinie ».
AdaCache est une technologie proposée par Meta en 2024 pour accélérer la génération de vidéos IA. Son cœur est le mécanisme de mise en cache adaptative. Les résultats de l’article associé sont « Mise en cache adaptative pour une génération vidéo plus rapide avec […]
En 2024, l'Université Carnegie Mellon (CMU) a proposé une nouvelle stratégie d'optimisation de boîte noire qui ajuste automatiquement les signaux de langage naturel via un grand modèle de langage pour optimiser les performances des modèles de langage visuel (VLM) dans plusieurs tâches en aval telles que les graphiques de texte et la reconnaissance visuelle. Cette approche ne nécessite pas seulement de toucher le modèle […]
DexMimicGen est capable de générer de grandes quantités de données de formation de robots à partir d'un petit nombre de démonstrations humaines.
MIA-DPO (Multi-Image Augmented Direct Preference Optimization) est une méthode d'alignement de préférences augmentées multi-images pour les grands modèles de langage visuel (LVLM), qui a été développée conjointement par l'Université Jiao Tong de Shanghai et l'Université Renmin de Shanghai.
Le cepstre de fréquence Mel est une technique largement utilisée dans le domaine du traitement du son, en particulier dans la reconnaissance vocale et l'identification du locuteur.
L'algorithme de Dijkstra est un algorithme classique permettant de trouver le chemin le plus court à partir d'une seule source dans un graphique.
La technologie WISE vise à lutter contre les phénomènes d'hallucination dans les grands modèles de langage et à améliorer les capacités d'édition de la mémoire des connaissances du modèle.
DuoAttention optimise la mémoire et les ressources informatiques en appliquant un cache KV complet pour les en-têtes de récupération et un cache KV léger de longueur fixe pour les en-têtes de streaming.
Au lieu de rechercher une correspondance biunivoque avec des objets réels, les cousins numériques se concentrent sur des qualités géométriques et sémantiques similaires, générant ainsi des données de formation pratiques à moindre coût.
DAPE signifie Data-Adaptive Positional Encoding, une nouvelle méthode d'encodage positionnel proposée par Zheng Chuanyang et d'autres de l'Université chinoise de Hong Kong. L'équipe de recherche comprend également des chercheurs de l'Université nationale de Singapour, du Noah Lab, de l'Université de Hong Kong et de l'Université baptiste de Hong Kong. […]
SparseLLM est un nouveau cadre d'élagage global proposé par des chercheurs de l'Université Emory et du Laboratoire national d'Argonne en 2024. L'article associé est « SparseLLM : Towards Global Pruning of Pre-trai […]
Diff Transformer calcule deux cartes d'attention softmax indépendantes, puis prend la différence pour obtenir le score d'attention final. Cette méthode peut éliminer efficacement le bruit d’attention et inciter le modèle à accorder plus d’attention aux parties les plus pertinentes de l’entrée.
UNA signifie Unified Alignment Framework, un nouveau cadre d'alignement proposé par une équipe de recherche de Salesforce et de l'Université de Xiamen. Le document connexe est « UNA : Unifying Alignments of […]
Swarm est un framework multi-agents expérimental développé par OpenAI en 2024 qui vise à simplifier la construction, l'orchestration et le déploiement de systèmes multi-agents. Swarm se concentre sur la création d'une collaboration et d'une exécution d'agents légères, hautement contrôlables et faciles à tester. Le cœur de Swarm[…]
Michelangelo est une méthode proposée par les chercheurs de DeepMind en 2024 pour évaluer la capacité de raisonnement de grands modèles de langage dans des contextes de textes longs. Cela se fait grâce à un cadre appelé Latent Structure Queries (LSQ) […]
Le problème d’arrêt est un problème important dans la théorie de la calculabilité en logique et en mathématiques. Elle a été proposée par le mathématicien britannique Alan Turing en 1936. L'article pertinent est le célèbre article de Turing « Sur les nombres calculables […]
Lorsque le modèle commence à générer des données pendant la formation qui sont loin de la véritable distribution des données, les performances du modèle chutent considérablement, ce qui finit par rendre la sortie du modèle dénuée de sens.
Le réseau de Hopfield est un réseau neuronal récurrent qui est principalement utilisé pour des problèmes tels que la mémoire associative et la reconnaissance de formes.
La réduction des erreurs de récompense fait référence au problème de l’apprentissage par renforcement (RL) causé par la fonction de récompense qui ne correspond pas entièrement au véritable objectif de l’agent.
Le système de recommandation séquentielle est un type important de système de recommandation, dont la tâche principale est de prédire le prochain comportement de l'utilisateur en fonction de la séquence de comportement historique de l'utilisateur.
R-MFDN améliore la sensibilité du modèle au contenu falsifié grâce à une fonction de perte d’apprentissage contrastive intermodale et à une fonction de perte d’apprentissage contrastive axée sur l’identité.