HyperAIHyperAI
vor 11 Tagen

LOVA3: Lernen des visuellen Fragenstellens, Fragenbeantwortens und Beurteilens

Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Zechen Bai, Mike Zheng Shou
LOVA3: Lernen des visuellen Fragenstellens, Fragenbeantwortens und Beurteilens
Abstract

Fragebeantwortung, Fragestellung und Beurteilung sind drei inhärente menschliche Eigenschaften, die entscheidend für das Verständnis der Welt und den Erwerb von Wissen sind. Durch die Verbesserung dieser Fähigkeiten können Menschen Daten effektiver nutzen und somit bessere Verständnis- und Lernergebnisse erzielen. Aktuelle Multimodale Große Sprachmodelle (MLLMs) konzentrieren sich vornehmlich auf die Fragebeantwortung und vernachlässigen oft das volle Potenzial von Fragestellung und Beurteilungsfähigkeiten. Inspiriert durch den menschlichen Lernmechanismus stellen wir LOVA3 vor – einen innovativen Rahmen namens „Learning tO Visual question Answering, Asking and Assessment“ –, der MLLMs diese zusätzlichen Fähigkeiten vermitteln soll. Unser Ansatz beinhaltet die Einführung zweier ergänzender Trainingsaufgaben, GenQA und EvalQA, die darauf abzielen, die Fähigkeiten zur Fragestellung und -beurteilung im Kontext von Bildern zu fördern. Zur Entwicklung der Fragestellungsfähigkeit sammeln wir eine umfassende Reihe multimodaler Grundaufgaben. Für die Beurteilung führen wir eine neue Benchmark namens EvalQABench ein, die aus 64.000 Trainingsbeispielen (gleichmäßig auf positive und negative Beispiele aufgeteilt) sowie 5.000 Validierungs- und Testbeispielen besteht. Wir vermuten, dass die Stärkung von MLLMs mit der Fähigkeit, Fragen zu beantworten, zu stellen und zu beurteilen, deren multimodales Verständnis verbessert und letztlich ihre Gesamtleistung steigert. Um diese Hypothese zu überprüfen, trainieren wir MLLMs mit dem LOVA3-Rahmen und evaluieren sie anhand einer Vielzahl multimodaler Datensätze und Benchmarks. Unsere Ergebnisse zeigen konsistente Leistungssteigerungen und unterstreichen die entscheidende Rolle dieser zusätzlichen Aufgaben bei der Förderung einer umfassenden Intelligenz in MLLMs. Der Quellcode ist unter https://github.com/showlab/LOVA3 verfügbar.

LOVA3: Lernen des visuellen Fragenstellens, Fragenbeantwortens und Beurteilens | Neueste Forschungsarbeiten | HyperAI