フラッシュモバ
FlashMoBAは2025年11月にMITとNvidiaの研究チームによって共同で提案され、関連する研究成果が論文として発表されました。 ブロックアテンションの混合の最適化 。
FlashMoBAは、理論上推奨される小さなブロックサイズでも効率的なMoBA実行を可能にする、ハードウェアを考慮したCUDAカーネルです。FlashAttentionの技術を借用し、ブロックスパース性に対する新たな最適化を追加することで、このパラダイムはFlashAttention-2と比較して14.7倍の高速化を実現し、これまで非現実的であった理論上最適な構成の導入を可能にします。