HyperAIHyperAI

Command Palette

Search for a command to run...

vor 23 Tagen

DreamOmni2: Multimodale, anweisungsbasierende Bearbeitung und Generierung

DreamOmni2: Multimodale, anweisungsbasierende Bearbeitung und Generierung

Abstract

Neuere Fortschritte im bildbasierten Bearbeiten auf der Grundlage von Anweisungen und in der themenbasierten Generierung haben erhebliche Aufmerksamkeit erregt, beide Aufgaben weisen jedoch weiterhin Einschränkungen auf, wenn es um die Erfüllung praktischer Benutzeranforderungen geht. Bei der anweisungsbasierten Bearbeitung wird ausschließlich auf sprachliche Anweisungen zurückgegriffen, die häufig fehlende spezifische Bearbeitungsdetails enthalten und daher die Verwendung von Referenzbildern erforderlich machen. Gleichzeitig ist die themenbasierte Generierung auf die Kombination konkreter Objekte oder Personen beschränkt und berücksichtigt dabei abstrakte Konzepte nicht. Um diese Herausforderungen zu bewältigen, schlagen wir zwei neue Aufgaben vor: multimodale anweisungsbasierte Bearbeitung und Generierung. Diese Aufgaben unterstützen sowohl textuelle als auch bildliche Anweisungen und erweitern den Anwendungsbereich auf konkrete sowie abstrakte Konzepte, wodurch ihre praktische Anwendbarkeit erheblich gesteigert wird. Wir stellen DreamOmni2 vor, das zwei zentrale Herausforderungen adressiert: die Datenerzeugung und die Gestaltung des Modellframeworks. Unser Datensyntheseprozess besteht aus drei Schritten: (1) Verwendung einer Merkmalsmischmethode zur Erzeugung von Extraktionsdaten für sowohl abstrakte als auch konkrete Konzepte, (2) Generierung von Trainingsdaten für anweisungsbasierte Bearbeitung mit multimodalen Eingaben mittels Bearbeitungs- und Extraktionsmodelle und (3) weitere Anwendung des Extraktionsmodells zur Erzeugung von Trainingsdaten für multimodale anweisungsbasierte Bearbeitung. Im Hinblick auf das Framework schlagen wir ein Verfahren zur Index- und Positions-Codierung vor, das mehrere Bilddaten verarbeiten kann und dem Modell hilft, die einzelnen Bilder zu unterscheiden und Pixelverwirrung zu vermeiden. Zudem führen wir eine gemeinsame Trainingsstrategie mit dem VLM (Vision-Language-Modell) und unserem Generierungs-/Bearbeitungsmodell ein, um komplexe Anweisungen effizienter zu verarbeiten. Zusätzlich haben wir umfassende Benchmark-Tests für diese beiden neuen Aufgaben vorgeschlagen, um deren Entwicklung voranzutreiben. Experimente zeigen, dass DreamOmni2 beeindruckende Ergebnisse erzielt hat. Die Modelle und Quellcodes werden veröffentlicht werden.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DreamOmni2: Multimodale, anweisungsbasierende Bearbeitung und Generierung | Forschungsarbeiten | HyperAI