日付

9ヶ月前

サイズ

731.51 MB

ライセンス

Apache 2.0

GitHub

bytedance/DreamO

論文URL

2504.16915

1. チュートリアルの概要

DreamOは、ByteDanceが北京大学深圳大学院電子コンピュータ工学学院と共同で2025年5月12日に発表した統合画像カスタマイズフレームワークです。DiT（Diffusion Transformer）アーキテクチャを基盤とするこのプロジェクトは、様々な画像生成タスクを統合し、キャラクタースワッピング（IP）、フェイススワッピング（ID）、スタイルトランスファー、マルチサブジェクトコンビネーションといった複雑な機能をサポートし、単一モデルによるマルチコンディション制御を実現します。関連研究論文も公開されています。 DreamO: 画像カスタマイズのための統合フレームワーク。

このチュートリアルでは、単一カード A6000 のリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. Web ページに入ると、モデルと会話を開始できます。

パラメータの説明:

タスク：
1. ip: 入力画像の背景を自動的に削除し、オブジェクト/キャラクターの本体部分を保持します。衣服やオブジェクトなどのシーンに適しています。
2. id: 顔の特徴領域を正確に抽出し、アイデンティティ特徴の移行をサポートします。最適化された顔認識アルゴリズムに基づいて、さまざまな角度や照明条件のポートレートに適応できます。
3. スタイル： プロンプトワードの前に「同じスタイルの画像を生成する」というコマンドを追加する必要があります。システムは元の背景とビジュアルスタイルを継承し、構成要素の創造的な拡張を実現します。
幅：生成される画像の幅を制御するために使用されます。
身長： 生成された画像の高さを制御するために使用されます。
ガイダンス： これは、生成モデル内の条件付き入力 (テキストや画像など) が生成される結果に影響を与える度合いを制御するために使用されます。ガイダンス値を高くすると、生成される結果が入力条件に近くなりますが、値を低くするとランダム性が高まります。
ステップ数： モデルの反復回数または推論プロセスのステップ数を表し、モデルが結果を生成するために使用する最適化ステップの数を表します。通常、ステップ数が多いほど、より正確な結果が生成されますが、計算時間が長くなる可能性があります。
シード： 生成プロセスのランダム性を制御するために使用される乱数シード。同じシード値では同じ結果が生成されます (他のパラメータが同じである場合)。これは、結果を再現する上で非常に重要です。

利用手順

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

9ヶ月前

サイズ

731.51 MB

ライセンス

Apache 2.0

GitHub

bytedance/DreamO

論文URL

2504.16915

1. チュートリアルの概要

このチュートリアルでは、単一カード A6000 のリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. Web ページに入ると、モデルと会話を開始できます。

パラメータの説明:

タスク：
1. ip: 入力画像の背景を自動的に削除し、オブジェクト/キャラクターの本体部分を保持します。衣服やオブジェクトなどのシーンに適しています。
2. id: 顔の特徴領域を正確に抽出し、アイデンティティ特徴の移行をサポートします。最適化された顔認識アルゴリズムに基づいて、さまざまな角度や照明条件のポートレートに適応できます。
3. スタイル： プロンプトワードの前に「同じスタイルの画像を生成する」というコマンドを追加する必要があります。システムは元の背景とビジュアルスタイルを継承し、構成要素の創造的な拡張を実現します。
幅：生成される画像の幅を制御するために使用されます。
身長： 生成された画像の高さを制御するために使用されます。
ガイダンス： これは、生成モデル内の条件付き入力 (テキストや画像など) が生成される結果に影響を与える度合いを制御するために使用されます。ガイダンス値を高くすると、生成される結果が入力条件に近くなりますが、値を低くするとランダム性が高まります。
ステップ数： モデルの反復回数または推論プロセスのステップ数を表し、モデルが結果を生成するために使用する最適化ステップの数を表します。通常、ステップ数が多いほど、より正確な結果が生成されますが、計算時間が長くなる可能性があります。
シード： 生成プロセスのランダム性を制御するために使用される乱数シード。同じシード値では同じ結果が生成されます (他のパラメータが同じである場合)。これは、結果を再現する上で非常に重要です。

利用手順

4. 議論

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

3ヶ月前

Depth-Anything-3: あらゆる視点から視覚空間を復元する

2ヶ月前

ジェスチャー認識に基づく3Dクリスマスツリー

2ヶ月前

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

2ヶ月前

Ovis-Image: 高品質画像生成モデル

2ヶ月前

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

3ヶ月前

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

2ヶ月前

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

2ヶ月前

FLUX.2-dev: 画像生成・編集モデル

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

DreamO: 統合画像カスタマイズフレームワーク

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

AIでAIを構築

HyperAI Newsletters

Command Palette

DreamO: 統合画像カスタマイズフレームワーク

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

ジェスチャー認識に基づく3Dクリスマスツリー

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

Ovis-Image: 高品質画像生成モデル

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

FLUX.2-dev: 画像生成・編集モデル

AIでAIを構築

HyperAI Newsletters

Command Palette

DreamO: 統合画像カスタマイズフレームワーク

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

ジェスチャー認識に基づく3Dクリスマスツリー

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

Ovis-Image: 高品質画像生成モデル

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

FLUX.2-dev: 画像生成・編集モデル

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

ジェスチャー認識に基づく3Dクリスマスツリー

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

Ovis-Image: 高品質画像生成モデル

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

FLUX.2-dev: 画像生成・編集モデル

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

ジェスチャー認識に基づく3Dクリスマスツリー

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

Ovis-Image: 高品質画像生成モデル

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

FLUX.2-dev: 画像生成・編集モデル

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック