フレックスアテンション

FlexAttendant は、2024 年 7 月に PyTorch チームによって公開された新しい API です。これは、多くの tention のバリアントを典型的な PyTorch コードの数行で実装し、渡すことを可能にする柔軟なインターフェイスを提供します。 torch.compile これを統合された FlashAttendant コアに落とし込むことで、パフォーマンスを犠牲にすることなく柔軟性を提供します。関連する論文結果は「効率的な高解像度視覚言語モデルのための FlexAttendance」が ECCV 2024 に採択されました。

FlexAttendant は、高解像度の視覚言語モデルの効率を向上させるために設計された柔軟なアテンション メカニズムです。このメカニズムは、高解像度および低解像度の画像マーカーをエンコードし、低解像度マーカーといくつかの選択された高解像度マーカーのみを使用してアテンション マップを計算することにより、計算コストを大幅に削減します。高解像度マーカーの選択は、入力されたアテンション マップに基づいて関連領域のマーカーを取得する高解像度選択モジュールを通じて実行されます。次に、選択された高解像度マーカーが低解像度マーカーおよびテキスト マーカーとともに階層型セルフ アテンション レイヤーに入力され、このレイヤーによって生成されたアテンション マップが高解像度マーカー選択の次のステップに使用されます。このプロセスは、各注目層で繰り返し実行されます。実験の結果、FlexAttend はマルチモーダル ベンチマークで既存の高解像度ビジュアル言語モデルよりも優れたパフォーマンスを示し、計算コストを 40% 近く大幅に削減できることがわかりました。