3ヶ月前

メモリ効率の高い双方向Transformerを用いた長時間動画のエンドツーエンド生成モデリングへ

Jaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong
メモリ効率の高い双方向Transformerを用いた長時間動画のエンドツーエンド生成モデリングへ
要約

自己回帰型トランスフォーマーは、動画生成において顕著な成功を収めてきた。しかし、自己注意(self-attention)の二次時間計算量の制約により、動画における長期依存関係を直接学習することが困難であり、また自己回帰プロセスに起因する推論速度の遅さと誤差伝播の問題を内包している。本論文では、動画における長期依存関係のエンドツーエンド学習と高速な推論を実現するため、メモリ効率型双方向トランスフォーマー(MeBT)を提案する。最近の双方向トランスフォーマーの進展に基づき、本手法は部分的に観測されたパッチから、動画の全時空間的ボリュームを並列で復元する学習を可能にする。提案するトランスフォーマーは、観測可能なコンテキストトークンを固定数の潜在トークンに射影し、クロス注意機構を用いてマスクされたトークンの復元を条件づけることで、エンコーディングおよびデコーディングにおいてともに線形時間計算量を達成する。線形計算量と双方向モデリングの恩恵を受けて、本手法は自己回帰型トランスフォーマーと比較して、中程度の長さの動画生成において品質および速度の面で顕著な向上を示した。動画とコードは、https://sites.google.com/view/mebt-cvpr2023 にて公開されている。