1. チュートリアルの概要

2025年1月にリリースされたSanaは、NVIDIA、MIT、清華大学が共同で主導するプロジェクトです。Sanaは、最大4096×4096の解像度の画像を効率的に生成できるテキスト画像変換フレームワークです。Sanaは高解像度・高品質の画像を非常に高速に合成でき、強力なテキスト画像アライメント機能を備えています。関連研究論文には以下が含まれます… SANA: 線形拡散変換器を用いた効率的な高解像度画像合成ICLR 2025に採択されました。

このチュートリアルでは、デモンストレーションに Sana_1600M_1024px モデルを使用し、コンピューティングパワーリソースには単一のカード 4090 を使用します。

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。 1～2分ほど待ってからページを更新してください。

2. 使用デモ

引用情報

Githubユーザーに感謝スーパーヤンこのチュートリアルの展開では、プロジェクト参照情報は次のとおりです。

@misc{Sana2025, title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer}, author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han}, howpublished={\url{https://nvlabs.github.io/Sana/}}, note={GitHub Repository with Code, Model & Documentation}, year={2025} }

議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

HyperAI

このNotebookを実行 Discordで議論

日付

9ヶ月前

サイズ

312.05 MB

タグ

画像分類

画像処理

ライセンス

Other

GitHub

NVlabs/Sana

論文URL

2410.10629

1. チュートリアルの概要

このチュートリアルでは、デモンストレーションに Sana_1600M_1024px モデルを使用し、コンピューティングパワーリソースには単一のカード 4090 を使用します。

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。 1～2分ほど待ってからページを更新してください。

2. 使用デモ

引用情報

Githubユーザーに感謝スーパーヤンこのチュートリアルの展開では、プロジェクト参照情報は次のとおりです。

@misc{Sana2025,
  title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
  author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
  howpublished={\url{https://nvlabs.github.io/Sana/}},
  note={GitHub Repository with Code, Model & Documentation},
  year={2025}
}

議論

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

9ヶ月前

サイズ

312.05 MB

タグ

画像分類

画像処理

ライセンス

Other

GitHub

NVlabs/Sana

論文URL

2410.10629

1. チュートリアルの概要

このチュートリアルでは、デモンストレーションに Sana_1600M_1024px モデルを使用し、コンピューティングパワーリソースには単一のカード 4090 を使用します。

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。 1～2分ほど待ってからページを更新してください。

2. 使用デモ

引用情報

Githubユーザーに感謝スーパーヤンこのチュートリアルの展開では、プロジェクト参照情報は次のとおりです。

@misc{Sana2025,
  title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
  author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
  howpublished={\url{https://nvlabs.github.io/Sana/}},
  note={GitHub Repository with Code, Model & Documentation},
  year={2025}
}

議論

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

2ヶ月前

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

1ヶ月前

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

2ヶ月前

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

2ヶ月前

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

3ヶ月前

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

2ヶ月前

Depth-Anything-3: あらゆる視点から視覚空間を復元する

2ヶ月前

SAM3: 視覚セグメンテーションモデル

2ヶ月前

Krea-realtime-video: リアルタイムビデオ生成モデル

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

サナ高解像度画像合成

1. チュートリアルの概要

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用デモ

引用情報

議論

AIでAIを構築

HyperAI Newsletters

Command Palette

サナ高解像度画像合成

1. チュートリアルの概要

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用デモ

引用情報

議論

関連 ノートブック

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

Depth-Anything-3: あらゆる視点から視覚空間を復元する

SAM3: 視覚セグメンテーションモデル

Krea-realtime-video: リアルタイムビデオ生成モデル

AIでAIを構築

HyperAI Newsletters

Command Palette

サナ高解像度画像合成

1. チュートリアルの概要

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用デモ

引用情報

議論

関連 ノートブック

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

Depth-Anything-3: あらゆる視点から視覚空間を復元する

SAM3: 視覚セグメンテーションモデル

Krea-realtime-video: リアルタイムビデオ生成モデル

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

Depth-Anything-3: あらゆる視点から視覚空間を復元する

SAM3: 視覚セグメンテーションモデル

Krea-realtime-video: リアルタイムビデオ生成モデル

関連 ノートブック

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

Depth-Anything-3: あらゆる視点から視覚空間を復元する

SAM3: 視覚セグメンテーションモデル

Krea-realtime-video: リアルタイムビデオ生成モデル

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック