HyperAIHyperAI
vor 11 Tagen

Genießen Sie Ihre Augen: Mixture-of-Resolution-Anpassung für multimodale große Sprachmodelle

Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji
Genießen Sie Ihre Augen: Mixture-of-Resolution-Anpassung für multimodale große Sprachmodelle
Abstract

Trotz bemerkenswerter Fortschritte sind bestehende multimodale große Sprachmodelle (MLLMs) weiterhin in der feinkörnigen visuellen Erkennung unterlegen. Im Gegensatz zu früheren Arbeiten untersuchen wir dieses Problem aus der Perspektive der Bildauflösung und zeigen, dass eine Kombination aus niedriger- und hochauflösenden visuellen Merkmalen diese Schwäche effektiv verringern kann. Aufgrund dieser Beobachtung stellen wir eine neuartige und effiziente Methode für MLLMs vor, die als Mixture-of-Resolution Adaptation (MRA) bezeichnet wird. Insbesondere verwendet MRA zwei visuelle Pfade für Bilder unterschiedlicher Auflösung, wobei hochauflösende visuelle Informationen über die neuartigen Mixture-of-Resolution-Adapter (MR-Adapter) in den Pfad niedriger Auflösung eingebettet werden. Diese Architektur reduziert zudem erheblich die Eingabesequenzlänge von MLLMs. Um die Wirksamkeit von MRA zu validieren, wenden wir es auf ein neues MLLM namens LLaVA an und bezeichnen das resultierende Modell als LLaVA-HR. Wir führen umfangreiche Experimente auf 11 visuell-sprachlichen (VL) Aufgaben durch, die zeigen, dass LLaVA-HR bestehende MLLMs in acht VL-Aufgaben übertrifft, beispielsweise um +9,4 % bei TextVQA. Vor allem ist sowohl das Training als auch die Inferenz von LLaVA-HR mit MRA weiterhin effizient, beispielsweise bei 20 Trainingstunden und einer 3-fach schnelleren Inferenzgeschwindigkeit im Vergleich zu LLaVA-1.5. Die Quellcodes sind unter folgender URL verfügbar: https://github.com/luogen1996/LLaVA-HR.

Genießen Sie Ihre Augen: Mixture-of-Resolution-Anpassung für multimodale große Sprachmodelle | Neueste Forschungsarbeiten | HyperAI