HyperAIHyperAI

Command Palette

Search for a command to run...

NÜWA:ニューラル視覚ワールド生成のための視覚合成事前学習

Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan

概要

本稿では、さまざまな視覚合成タスクに対して、新しい視覚データの生成または既存の視覚データ(画像および動画)の操作が可能な統合型マルチモーダル事前学習モデル「NÜWA」を提案する。異なるシナリオにおいて、言語、画像、動画を同時に扱うために、3Dトランスフォーマーのエンコーダ・デコーダフレームワークを設計した。このフレームワークは、動画を3次元データとして処理できるだけでなく、テキストを1次元データ、画像を2次元データとしてそれぞれ適応可能である。また、視覚データの特性を考慮しつつ計算量を削減するため、3D近接注意(3DNA)機構を新たに提案した。NÜWAは8つの下流タスクにおいて評価され、複数の強力なベースラインと比較して、テキストから画像生成、テキストから動画生成、動画予測などのタスクで最先端の性能を達成した。さらに、テキストガイド付き画像および動画の操作タスクにおいて、驚くべきゼロショット能力を示した。プロジェクトのレポジトリは https://github.com/microsoft/NUWA にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています