HyperAI超神经

1. チュートリアルの概要

BAGEL-7B-MoTは、ByteDance Seedチームによって2025年5月22日にリリースされたオープンソースのマルチモーダル基本モデルです。テキスト、画像、動画などのマルチモーダルデータの理解と生成のタスクを統一することを目的としています。 BAGEL は、マルチモーダル理解と生成、複雑な推論と編集、世界のモデリングとナビゲーションなどのマルチモーダルタスクにおける包括的な機能を発揮します。その主な機能は、視覚的理解、テキストから画像への生成、画像編集などです。関連する論文の結果は次のとおりです。統合マルチモーダル事前学習における新たな特性”。

このチュートリアルでは、デュアルカード A6000 コンピューティングリソースを使用し、イメージ生成、Think を使用したイメージ生成、イメージ編集、Think を使用したイメージ編集、およびイメージ理解をテスト用に提供します。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2. 使用例

2.1 画像生成

具体的なパラメータ:

プロンプト: ここで画像の内容を説明するテキストを入力すると、モデルはこのテキストに基づいて画像を生成します。
テキストガイダンススケール: プロンプトが出力にどの程度影響するかを制御します。値が大きいほど影響が大きくなります。
生成ステップ: ステップ数が多いほど品質は向上しますが、速度は遅くなります。
タイムステップシフト: 生成プロセスを制御します。

結果

2.2 思考による画像生成

具体的なパラメータ:

クリエイティブプロンプト: ここで画像の内容を説明するテキストを入力すると、モデルはこのテキストに基づいて画像を生成します。
最大思考トークン: 推論の深さを制御します。
テキストガイダンススケール: プロンプトが出力にどの程度影響するかを制御します。値が大きいほど影響が大きくなります。
生成ステップ: ステップ数が多いほど品質は向上しますが、速度は遅くなります。
タイムステップシフト: 生成プロセスを制御します。

結果

2.3 画像編集

具体的なパラメータ:

画像のアップロード: 編集する必要がある画像をアップロードします。
編集手順: 編集手順。
テキストガイダンススケール: プロンプトが出力にどの程度影響するかを制御します。値が大きいほど影響が大きくなります。
編集手順: 手順が多いほど品質は向上しますが、速度は遅くなります。
編集の進行: 生成プロセスを制御します。
画像の忠実度: 画像の忠実度が高くなるほど、元の画像がより多く保存されます。

結果

2.4 Thinkを使った画像編集

具体的なパラメータ:

画像のアップロード: 編集する必要がある画像をアップロードします。
編集手順: 編集手順。
推論の深さ: 推論の深さ。
テキストガイダンススケール: プロンプトが出力にどの程度影響するかを制御します。値が大きいほど影響が大きくなります。
処理手順: 手順が多いほど品質は向上しますが、速度は遅くなります。
編集の進行: 生成プロセスを制御します。
オリジナル保存: 画像の忠実度。値が高いほど、オリジナルがより多く保存されます。

結果

2.5 画像理解

具体的なパラメータ:

画像のアップロード: 編集する必要がある画像をアップロードします。
あなたの質問：あなたの質問。

結果

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{deng2025bagel,
  title   = {Emerging Properties in Unified Multimodal Pretraining},
  author  = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
  journal = {arXiv preprint arXiv:2505.14683},
  year    = {2025}
}

BAGEL: マルチモーダル理解と生成のための統合モデル

1. チュートリアルの概要

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用例

2.1 画像生成

2.2 思考による画像生成

2.3 画像編集

2.4 Thinkを使った画像編集

2.5 画像理解

4. 議論

引用情報