HyperAIHyperAI
vor 2 Monaten

ProVision: Programmatisch skalierbare visionzentrierte Anweisungsdaten für multimodale Sprachmodelle

Jieyu Zhang; Le Xue; Linxin Song; Jun Wang; Weikai Huang; Manli Shu; An Yan; Zixian Ma; Juan Carlos Niebles; Silvio Savarese; Caiming Xiong; Zeyuan Chen; Ranjay Krishna; Ran Xu
ProVision: Programmatisch skalierbare visionzentrierte Anweisungsdaten für multimodale Sprachmodelle
Abstract

Mit dem Aufkommen multimodaler Anwendungen ist Anweisungsdaten für die Ausbildung von multimodalen Sprachmodellen, die komplexe bildbasierte Abfragen verstehen können, entscheidend geworden. Bestehende Praktiken basieren auf leistungsfähigen, aber teuren großen Sprachmodellen (LLMs) oder multimodalen Sprachmodellen (MLMs), um Anweisungsdaten zu erzeugen. Diese sind oft anfällig für Halluzinationen, Lizenzprobleme und der Generierungsprozess ist in der Regel schwer skalierbar und zu interpretieren. In dieser Arbeit präsentieren wir einen programmatischen Ansatz, der Szenengraphen als symbolische Darstellungen von Bildern und menschlich verfasste Programme verwendet, um systematisch vision-zentrierte Anweisungsdaten zu synthetisieren. Unser Ansatz gewährleistet die Interpretierbarkeit und Steuerbarkeit des Datenerzeugungsprozesses und skaliert effizient, während faktuelle Genauigkeit beibehalten wird. Durch die Implementierung einer Suite von 24 Einzelbild-Anweisungsgeneratoren, 14 Mehrfachbild-Anweisungsgeneratoren und einem Pipeline zur Erzeugung von Szenengraphen bauen wir ein skalierbares, kosteneffektives System: ProVision, das vielfältige Frage-Antwort-Paare bezüglich Objekte, Attribute, Relationen, Tiefen usw. für jedes gegebene Bild erzeugt. Angewendet auf die Datensätze Visual Genome und DataComp generieren wir über 10 Millionen Anweisungsdatenpunkte, ProVision-10M genannt, und nutzen diese sowohl in den Vortrainings- als auch in den Anweisungstuning-Phasen von MLMs. Wenn unser Einzelbild-Anweisungsdatensatz im Anweisungstuning-Stadium eingesetzt wird, führt dies zu einer Verbesserung von bis zu 7 % bei der 2D-Spalte und 8 % bei der 3D-Spalte von CVBench sowie zu einer Leistungssteigerung von 3 % bei QBench2, RealWorldQA und MMMU. Unsere Mehrfachbild-Anweisungsdaten resultieren in einer Verbesserung von 8 % bei Mantis-Eval. Die Integration unserer Daten sowohl in die Vortraining- als auch in die Feinabstimmungsphasen von xGen-MM-4B führt zu einem durchschnittlichen Leistungsanstieg von 1,6 % über elf Benchmarks hinweg.

ProVision: Programmatisch skalierbare visionzentrierte Anweisungsdaten für multimodale Sprachmodelle | Neueste Forschungsarbeiten | HyperAI