FlashMoBA
FlashMoBA a été proposé conjointement par des équipes de recherche du MIT et de Nvidia en novembre 2025, et les résultats de recherche pertinents ont été publiés dans un article. Optimisation du mélange d'attention par blocs .
FlashMoBA est un noyau CUDA optimisé pour le matériel qui permet une exécution MoBA efficace, même avec la taille de bloc réduite que nous recommandons théoriquement. En empruntant des techniques à FlashAttention et en ajoutant de nouvelles optimisations pour la sparsité des blocs, ce paradigme atteint une vitesse 14,7 fois supérieure à celle de FlashAttention-2, rendant possible le déploiement de configurations théoriquement optimales auparavant irréalisables.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.