HyperAIHyperAI

Command Palette

Search for a command to run...

BAGEL: Ein Einheitliches Modell Für Multimodales Verständnis Und Generierung

Date

vor 8 Monaten

Size

1.25 GB

License

Apache 2.0

Paper URL

2505.14683

1. Einführung in das Tutorial

Bauen

BAGEL-7B-MoT ist ein Open-Source-Multimodalmodell, das am 22. Mai 2025 vom Seed-Team von ByteDance veröffentlicht wurde. Es zielt darauf ab, das Verstehen und Generieren multimodaler Daten wie Text, Bilder und Videos zu vereinheitlichen. BAGEL demonstriert umfassende Fähigkeiten im multimodalen Verstehen und Generieren, im komplexen Schließen und Bearbeiten, in der Weltmodellierung und Navigation sowie in weiteren multimodalen Aufgaben. Zu seinen Hauptfunktionen gehören visuelles Verständnis, Text-zu-Bild-Konvertierung und Bildbearbeitung. Verwandte Forschungsarbeiten sind verfügbar. Neue Eigenschaften im einheitlichen multimodalen Vortraining .

Dieses Tutorial verwendet die Rechenressourcen der Dual-Card-A6000 und bietet zum Testen die Funktionen „Bildgenerierung“, „Bildgenerierung mit Think“, „Bildbearbeitung“, „Bildbearbeitung mit Think“ und „Bildverständnis“.

2. Effektanzeige

3. Bedienungsschritte

1. Starten Sie den Container

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

2. Anwendungsbeispiele

2.1 Bilderzeugung

Spezifische Parameter:

  • Eingabeaufforderung: Sie können hier Text eingeben, um den Inhalt des Bildes zu beschreiben. Das Modell generiert dann basierend auf diesem Text ein Bild.
  • Textführungsskala: Steuert, wie stark sich die Eingabeaufforderung auf die Ausgabe auswirkt. Höhere Werte haben eine größere Wirkung.
  • Generierungsschritte: Mehr Schritte bedeuten bessere Qualität, aber geringere Geschwindigkeit.
  • Zeitschrittverschiebung: Steuert den Generierungsprozess.

Ergebnis 

2.2 Bilderzeugung durch Denken

Spezifische Parameter:

  • Kreativ-Eingabeaufforderung: Sie können hier Text eingeben, um den Inhalt des Bildes zu beschreiben, und das Modell generiert basierend auf diesem Text ein Bild.
  • Max. Denk-Token: Kontrollieren Sie die Tiefe der Argumentation.
  • Textführungsskala: Steuert, wie stark sich die Eingabeaufforderung auf die Ausgabe auswirkt. Höhere Werte haben eine größere Wirkung.
  • Generierungsschritte: Mehr Schritte bedeuten bessere Qualität, aber geringere Geschwindigkeit.
  • Zeitschrittverschiebung: Steuert den Generierungsprozess.

Ergebnis 

2.3 Bildbearbeitung

Spezifische Parameter:

  • Bild hochladen: Laden Sie das Bild hoch, das bearbeitet werden soll.
  • Anweisung bearbeiten: Anweisung bearbeiten.
  • Textführungsskala: Steuert, wie stark sich die Eingabeaufforderung auf die Ausgabe auswirkt. Höhere Werte haben eine größere Wirkung.
  • Bearbeitungsschritte: Mehr Schritte bedeuten bessere Qualität, aber geringere Geschwindigkeit.
  • Bearbeitungsfortschritt: Steuern Sie den Generierungsprozess.
  • Bildtreue: Eine höhere Bildtreue bedeutet, dass mehr vom Originalbild erhalten bleibt.

Ergebnis 

2.4 Bildbearbeitung mit Think

Spezifische Parameter:

  • Bild hochladen: Laden Sie das Bild hoch, das bearbeitet werden soll.
  • Anweisung bearbeiten: Anweisung bearbeiten.
  • Argumentationstiefe: Argumentationstiefe.
  • Textführungsskala: Steuert, wie stark sich die Eingabeaufforderung auf die Ausgabe auswirkt. Höhere Werte haben eine größere Wirkung.
  • Verarbeitungsschritte: Mehr Schritte bedeuten bessere Qualität, aber geringere Geschwindigkeit.
  • Bearbeitungsfortschritt: Steuern Sie den Generierungsprozess.
  • Originalerhaltung: Bildtreue, höher bedeutet, dass mehr Original erhalten bleibt.

Ergebnis 

2.5 Bildverständnis

Spezifische Parameter:

  • Bild hochladen: Laden Sie das Bild hoch, das bearbeitet werden soll.
  • Ihre Frage: Ihre Frage.

Ergebnis 

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{deng2025bagel,
  title   = {Emerging Properties in Unified Multimodal Pretraining},
  author  = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
  journal = {arXiv preprint arXiv:2505.14683},
  year    = {2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp