FlashAttention は、スタンフォード大学とニューヨーク州立大学によって 2022 年に提案された、効率的でメモリに優しいアテンション アルゴリズムです。これは、従来の Transformer におけるセルフ アテンション (Self-Attention) 層の高い計算複雑性とメモリ使用量を解決することを目的としています。モデルの質問。関連する論文結果は「Flashアテンション: IO 認識を備えた高速でメモリ効率の高い正確なアテンション”。このアルゴリズムは PyTorch 2.0 に統合され、triton、xformer などの複数のオープンソース フレームワークによって統合および実装されています。タイリングおよび再計算技術を活用してアテンションの計算を並べ替えることにより、計算が大幅に高速化され、メモリ使用量がシーケンスの長さで 2 次から線形に削減されます。
FlashAttend の導入により、Meta の LLaMA やアラブ首長国連邦が発表した Falcon などの大規模なオープンソース モデルで計算を高速化し、ビデオ メモリを節約できるようになります。さらに、FlashAttendant の次のバージョンである FlashAttendant-2 は、より優れた並列処理と作業分割を提供するために元のベースに改良されており、Tri Dao は 2023 年 7 月にこの論文を通過させました。FlashAttention-2: より優れた並列処理と作業分割による迅速なアテンション「提案してください。
FlashAttendant-3 は、2024 年 7 月に Colfax Research、Meta、NVIDIA、ジョージア工科大学、プリンストン大学、Togetter AI の研究チームによって共同提案されました。関連論文は「FlashAttention-3: 非同期性と低精度による高速かつ正確なアテンション”。シリーズの最新バージョンとして、H100 GPU で大幅なパフォーマンスの向上を実現し、FlashAttendant-2 よりも 1.5 ~ 2.0 倍高速、最大 740 TFLOPS、つまり 75% の H100 理論上の最大 FLOPS 使用率、FP8 使用時は 1.2 に近くなります。フロップス75。これらの改善により、LLM のトレーニングと実行が大幅に高速化され、精度を維持しながら低精度の数値 (FP8) を使用できるようになり、メモリ使用量が削減され、コストが削減される可能性があります。