HyperAI

Ein hochwertiger Datensatz und eine zuverlässige Bewertung für die verzahnte Bild-Text-Generierung

Yukang Feng, Jianwen Sun, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, Kaipeng Zhang
Veröffentlichungsdatum: 6/16/2025
Ein hochwertiger Datensatz und eine zuverlässige Bewertung für die verzahnte
Bild-Text-Generierung
Abstract

Neuere Fortschritte bei großen multimodalen Modellen (LMMs) haben das multimodale Verständnis und die Generierung erheblich verbessert. Dennoch kämpfen diese Modelle weiterhin damit, eng verzahnte Bild-Text-Ausgaben zu generieren, hauptsächlich aufgrund der begrenzten Größe, Qualität und instruktionalen Reichhaltigkeit der aktuellen Trainingsdatensätze. Um dieses Problem anzugehen, stellen wir InterSyn vor, einen groß angelegten multimodalen Datensatz, der mit unserer Methode der Selbstbewertung durch iteratives Feinabstimmung (SEIR) erstellt wurde. InterSyn enthält mehrfach verlaufende, anweisungsgetriebene Dialoge mit eng verzahnten Bild-Text-Antworten, bietet eine reiche Objektvielfalt und eine strenge automatische Qualitätsverbesserung, wodurch er sich ideal für das Training von neuergenerationsspezifischen LMMs eignet. Des Weiteren haben wir SynJudge entwickelt, ein automatisches Evaluationsmodell, das dazu dient, multimodale Ausgaben quantitativ entlang vier Dimensionen zu bewerten: Textinhalt, Bildinhalt, Bildqualität und Bild-Text-Synergie.Experimentelle Studien zeigen, dass die SEIR-Methode zu erheblich höherer Datensatzqualität führt im Vergleich zu einem sonst identischen Prozess ohne Feinabstimmung. Darüber hinaus erreichen LMMs, die auf InterSyn trainiert wurden, gleichmäßige Leistungssteigerungen in allen Evaluationsmetriken, was die Nützlichkeit von InterSyn zur Förderung multimodaler Systeme bestätigt.