HyperAIHyperAI

Command Palette

Search for a command to run...

Attention Éparse Native

Date

il y a 3 mois

L'attention parcimonieuse native (NSA) est un mécanisme d'attention parcimonieuse nativement entraînable, proposé par DeepSeek, l'Université de Pékin et l'Université de Washington le 27 février 2025. Il vise à résoudre le problème de goulot d'étranglement informatique dans la modélisation de séquences longues. Cette méthode combine innovation algorithmique et optimisation matérielle pour obtenir une modélisation efficace en contexte long.Attention éparse native : attention éparse alignée sur le matériel et pouvant être formée nativement", qui a remporté le prix du meilleur article de l'ACL 25.

Pré-entraîné sur un modèle de base Transformer de 27 milliards de paramètres, NSA atteint des performances comparables, voire supérieures, à celles des modèles d'attention entièrement connectés sur les benchmarks courants, les tâches à contexte long et les tâches d'inférence. Lors du traitement de séquences de 64 000 secondes, NSA accélère considérablement le décodage, la propagation directe et la rétropropagation.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Attention Éparse Native | Wiki | HyperAI