6ヶ月前

テキストから画像生成

テキストから動画

マルチモーダル

Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan

概要

本稿では、さまざまな視覚合成タスクに対して、新しい視覚データの生成または既存の視覚データ（画像および動画）の操作が可能な統合型マルチモーダル事前学習モデル「NÜWA」を提案する。異なるシナリオにおいて、言語、画像、動画を同時に扱うために、3Dトランスフォーマーのエンコーダ・デコーダフレームワークを設計した。このフレームワークは、動画を3次元データとして処理できるだけでなく、テキストを1次元データ、画像を2次元データとしてそれぞれ適応可能である。また、視覚データの特性を考慮しつつ計算量を削減するため、3D近接注意（3DNA）機構を新たに提案した。NÜWAは8つの下流タスクにおいて評価され、複数の強力なベースラインと比較して、テキストから画像生成、テキストから動画生成、動画予測などのタスクで最先端の性能を達成した。さらに、テキストガイド付き画像および動画の操作タスクにおいて、驚くべきゼロショット能力を示した。プロジェクトのレポジトリは https://github.com/microsoft/NUWA にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

テキストから画像生成

テキストから動画

マルチモーダル

Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan

概要

本稿では、さまざまな視覚合成タスクに対して、新しい視覚データの生成または既存の視覚データ（画像および動画）の操作が可能な統合型マルチモーダル事前学習モデル「NÜWA」を提案する。異なるシナリオにおいて、言語、画像、動画を同時に扱うために、3Dトランスフォーマーのエンコーダ・デコーダフレームワークを設計した。このフレームワークは、動画を3次元データとして処理できるだけでなく、テキストを1次元データ、画像を2次元データとしてそれぞれ適応可能である。また、視覚データの特性を考慮しつつ計算量を削減するため、3D近接注意（3DNA）機構を新たに提案した。NÜWAは8つの下流タスクにおいて評価され、複数の強力なベースラインと比較して、テキストから画像生成、テキストから動画生成、動画予測などのタスクで最先端の性能を達成した。さらに、テキストガイド付き画像および動画の操作タスクにおいて、驚くべきゼロショット能力を示した。プロジェクトのレポジトリは https://github.com/microsoft/NUWA にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

NÜWA：ニューラル視覚ワールド生成のための視覚合成事前学習 | 記事 | HyperAI超神経