HyperAIHyperAI
vor 9 Tagen

MiniGPT-4: Verbesserung des Verständnisses von Vision-Sprache durch fortgeschrittene Large Language Models

Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny
MiniGPT-4: Verbesserung des Verständnisses von Vision-Sprache durch fortgeschrittene Large Language Models
Abstract

Der jüngste GPT-4 hat außergewöhnliche multimodale Fähigkeiten demonstriert, wie beispielsweise die direkte Generierung von Websites aus handschriftlichen Texten sowie die Erkennung humorvoller Elemente in Bildern. Diese Eigenschaften sind bei früheren visuellen Sprachmodellen selten zu beobachten. Die technischen Details hinter GPT-4 bleiben jedoch weiterhin unveröffentlicht. Wir gehen davon aus, dass die verbesserten multimodalen Generierungsfähigkeiten von GPT-4 auf der Nutzung fortschrittlicher großer Sprachmodelle (Large Language Models, LLM) beruhen. Um dieses Phänomen zu untersuchen, präsentieren wir MiniGPT-4, das einen fixierten visuellen Encoder mit einem fixierten fortschrittlichen LLM, Vicuna, mittels einer einzigen Projektionsschicht ausrichtet. Unser Ansatz zeigt erstmals, dass eine sorgfältige Ausrichtung visueller Merkmale mit einem fortgeschrittenen großen Sprachmodell zahlreiche hochentwickelte multimodale Fähigkeiten aufweisen kann, wie sie auch bei GPT-4 beobachtet werden – beispielsweise die Erzeugung detaillierter Bildbeschreibungen oder die Erstellung von Websites aus handgezeichneten Entwürfen. Darüber hinaus beobachten wir in MiniGPT-4 auch weitere emergente Fähigkeiten, wie das Verfassen von Geschichten und Gedichten auf Basis gegebener Bilder, das Anleiten zum Kochen anhand von Nahrungsmittelfotos und weitere Anwendungen. In unseren Experimenten stellten wir fest, dass ein Modell, das nur auf kurzen Bildbeschreibungspaaren trainiert wurde, unnatürliche Sprachausgaben erzeugen (z. B. Wiederholungen und Fragmentierung). Um dieses Problem zu beheben, erstellen wir im zweiten Schritt eine detaillierte Datensammlung mit ausführlichen Bildbeschreibungen, um das Modell darauf zu fine-tunen. Dadurch wird die Generierungsreliabilität und die allgemeine Anwendbarkeit des Modells signifikant verbessert. Unser Quellcode, das vortrainierte Modell sowie die gesammelten Datensätze sind unter https://minigpt-4.github.io/ verfügbar.