HyperAIHyperAI
vor 2 Monaten

GPT4RoI: Anweisungstuning eines großen Sprachmodells auf Regionen von Interesse

Shilong Zhang; Peize Sun; Shoufa Chen; Min Xiao; Wenqi Shao; Wenwei Zhang; Yu Liu; Kai Chen; Ping Luo
GPT4RoI: Anweisungstuning eines großen Sprachmodells auf Regionen von Interesse
Abstract

Die visuelle Anweisungskalibrierung von großen Sprachmodellen (LLM) anhand von Bild-Text-Paaren hat allgemeine Fähigkeiten im Bereich Vision und Sprache erreicht. Allerdings begrenzt der Mangel an Region-Text-Paaren ihre Fortschritte bei der feingranularen multimodalen Verständigung. In dieser Arbeit schlagen wir eine räumliche Anweisungskalibrierung vor, die einen Bezug zu Regionen von Interesse (RoI) in den Anweisungen einführt. Bevor die Anweisungen dem LLM übermittelt werden, wird der Bezug durch RoI-Features ersetzt und als Sequenz mit den Sprachembeddings verflochten. Unser Modell GPT4RoI, das auf sieben Region-Text-Datensätzen trainiert wurde, bietet im Vergleich zu früheren bildbasierten Modellen ein bislang unbekanntes interaktives und konversationsfähiges Erlebnis.(1) Interaktion über Sprache hinaus: Nutzer können mit unserem Modell sowohl durch Sprache als auch durch Zeichnen von Begrenzungsrahmen interagieren, um die Referenzgranularität flexibel anzupassen.(2) Vielseitige multimodale Fähigkeiten: Eine Vielzahl von Attributinformationen innerhalb jeder RoI kann von GPT4RoI ausgegraben werden, z.B. Farbe, Form, Material, Handlung usw. Darüber hinaus kann es aufgrund des gesunden Menschenverstands über mehrere RoIs nachdenken. Auf dem Datensatz für visuelles Common-Sense-Reasoning (VCR) erreicht GPT4RoI eine bemerkenswerte Genauigkeit von 81,6 %, was alle existierenden Modelle erheblich übertrifft (der zweite Platz liegt bei 75,6 %) und fast menschliches Leistungsniveau von 85,0 % erreicht.Der Code und das Modell sind unter https://github.com/jshilong/GPT4RoI abrufbar.

GPT4RoI: Anweisungstuning eines großen Sprachmodells auf Regionen von Interesse | Neueste Forschungsarbeiten | HyperAI