HyperAIHyperAI

Command Palette

Search for a command to run...

BAGEL: マルチモーダル理解と生成のための統合モデル

Date

8ヶ月前

Size

1.25 GB

License

Apache 2.0

Paper URL

2505.14683

1. チュートリアルの概要

建てる

BAGEL-7B-MoTは、ByteDanceのSeedチームによって2025年5月22日にリリースされたオープンソースのマルチモーダル基盤モデルです。テキスト、画像、動画などのマルチモーダルデータの理解と生成タスクの統合を目指しています。BAGELは、マルチモーダル理解と生成、複雑な推論と編集、世界のモデリングとナビゲーション、その他のマルチモーダルタスクにおいて包括的な機能を発揮します。主な機能には、視覚理解、テキストから画像への生成、画像編集などがあります。関連研究論文も入手可能です。 統合マルチモーダル事前学習における新たな特性

このチュートリアルでは、デュアルカード A6000 コンピューティング リソースを使用し、イメージ生成、Think を使用したイメージ生成、イメージ編集、Think を使用したイメージ編集、およびイメージ理解をテスト用に提供します。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2. 使用例

2.1 画像生成

具体的なパラメータ:

  • プロンプト: ここで画像の内容を説明するテキストを入力すると、モデルはこのテキストに基づいて画像を生成します。
  • テキスト ガイダンス スケール: プロンプトが出力にどの程度影響するかを制御します。値が大きいほど影響が大きくなります。
  • 生成ステップ: ステップ数が多いほど品質は向上しますが、速度は遅くなります。
  • タイムステップ シフト: 生成プロセスを制御します。

結果 

2.2 思考による画像生成

具体的なパラメータ:

  • クリエイティブプロンプト: ここで画像の内容を説明するテキストを入力すると、モデルはこのテキストに基づいて画像を生成します。
  • 最大思考トークン: 推論の深さを制御します。
  • テキスト ガイダンス スケール: プロンプトが出力にどの程度影響するかを制御します。値が大きいほど影響が大きくなります。
  • 生成ステップ: ステップ数が多いほど品質は向上しますが、速度は遅くなります。
  • タイムステップ シフト: 生成プロセスを制御します。

結果 

2.3 画像編集

具体的なパラメータ:

  • 画像のアップロード: 編集する必要がある画像をアップロードします。
  • 編集手順: 編集手順。
  • テキスト ガイダンス スケール: プロンプトが出力にどの程度影響するかを制御します。値が大きいほど影響が大きくなります。
  • 編集手順: 手順が多いほど品質は向上しますが、速度は遅くなります。
  • 編集の進行: 生成プロセスを制御します。
  • 画像の忠実度: 画像の忠実度が高くなるほど、元の画像がより多く保存されます。

結果 

2.4 Thinkを使った画像編集

具体的なパラメータ:

  • 画像のアップロード: 編集する必要がある画像をアップロードします。
  • 編集手順: 編集手順。
  • 推論の深さ: 推論の深さ。
  • テキスト ガイダンス スケール: プロンプトが出力にどの程度影響するかを制御します。値が大きいほど影響が大きくなります。
  • 処理手順: 手順が多いほど品質は向上しますが、速度は遅くなります。
  • 編集の進行: 生成プロセスを制御します。
  • オリジナル保存: 画像の忠実度。値が高いほど、オリジナルがより多く保存されます。

結果 

2.5 画像理解

具体的なパラメータ:

  • 画像のアップロード: 編集する必要がある画像をアップロードします。
  • あなたの質問:あなたの質問。

結果 

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{deng2025bagel,
  title   = {Emerging Properties in Unified Multimodal Pretraining},
  author  = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
  journal = {arXiv preprint arXiv:2505.14683},
  year    = {2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています