vor 11 Tagen

Shikra: Die Freisetzung der referenziellen Dialog-Magie von Multimodal-LLMs

Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao

Abstract

In menschlichen Gesprächen können Individuen relevante Bereiche innerhalb einer Szene ansprechen, während sie mit anderen kommunizieren. Im Gegenzug kann die andere Person darauf reagieren, indem sie gezielt auf bestimmte Bereiche verweist, falls nötig. Diese natürliche Referenzfähigkeit im Dialog fehlt derzeit in den vorhandenen Multimodalen Großen Sprachmodellen (MLLMs). Um diese Lücke zu schließen, stellt dieser Artikel ein MLLM namens Shikra vor, das räumliche Koordinaten als Eingabe und Ausgabe in natürlicher Sprache verarbeiten kann. Sein Architekturkonzept besteht aus einem Vision-Encoder, einer Alignierungsschicht und einem großen Sprachmodell (LLM). Es ist bewusst einfach und schlank gestaltet, ohne zusätzliche Vokabulare, Positions-Encoder, Vor- oder Nachverarbeitungsmodulen oder externe Plug-in-Modelle zu benötigen. Alle Eingaben und Ausgaben erfolgen in natürlicher Sprache. Referenzdialoge bilden eine Obermenge verschiedener visuell-sprachlicher (VL) Aufgaben. Shikra kann daher natürliche Aufgaben im Zusammenhang mit Positionen wie REC und PointQA ebenso bewältigen wie herkömmliche VL-Aufgaben wie Bildbeschreibung (Image Captioning) und visuell-sprachliche Fragen (VQA). Experimentelle Ergebnisse zeigen die vielversprechende Leistungsfähigkeit von Shikra. Darüber hinaus ermöglicht es zahlreiche anspruchsvolle Anwendungen, etwa die Angabe der Koordinaten genannter Objekte innerhalb von Gedankengängen oder die Vergleichbarkeit von vom Benutzer markierten Bereichen. Quellcode, Modell und Datensatz sind über https://github.com/shikras/shikra zugänglich.