7日前
NÜWA:ニューラル視覚ワールド生成のための視覚合成事前学習
Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang, Nan Duan

要約
本稿では、さまざまな視覚合成タスクに対して、新しい視覚データの生成または既存の視覚データ(画像および動画)の操作が可能な統合型マルチモーダル事前学習モデル「NÜWA」を提案する。異なるシナリオにおいて、言語、画像、動画を同時に扱うために、3Dトランスフォーマーのエンコーダ・デコーダフレームワークを設計した。このフレームワークは、動画を3次元データとして処理できるだけでなく、テキストを1次元データ、画像を2次元データとしてそれぞれ適応可能である。また、視覚データの特性を考慮しつつ計算量を削減するため、3D近接注意(3DNA)機構を新たに提案した。NÜWAは8つの下流タスクにおいて評価され、複数の強力なベースラインと比較して、テキストから画像生成、テキストから動画生成、動画予測などのタスクで最先端の性能を達成した。さらに、テキストガイド付き画像および動画の操作タスクにおいて、驚くべきゼロショット能力を示した。プロジェクトのレポジトリは https://github.com/microsoft/NUWA にて公開されている。