HyperAIHyperAI

Command Palette

Search for a command to run...

Shikra: Die Freisetzung der referenziellen Dialog-Magie von Multimodal-LLMs

Keqin Chen Zhao Zhang Weili Zeng Richong Zhang Feng Zhu Rui Zhao

Zusammenfassung

In menschlichen Gesprächen können Individuen relevante Bereiche innerhalb einer Szene ansprechen, während sie mit anderen kommunizieren. Im Gegenzug kann die andere Person darauf reagieren, indem sie gezielt auf bestimmte Bereiche verweist, falls nötig. Diese natürliche Referenzfähigkeit im Dialog fehlt derzeit in den vorhandenen Multimodalen Großen Sprachmodellen (MLLMs). Um diese Lücke zu schließen, stellt dieser Artikel ein MLLM namens Shikra vor, das räumliche Koordinaten als Eingabe und Ausgabe in natürlicher Sprache verarbeiten kann. Sein Architekturkonzept besteht aus einem Vision-Encoder, einer Alignierungsschicht und einem großen Sprachmodell (LLM). Es ist bewusst einfach und schlank gestaltet, ohne zusätzliche Vokabulare, Positions-Encoder, Vor- oder Nachverarbeitungsmodulen oder externe Plug-in-Modelle zu benötigen. Alle Eingaben und Ausgaben erfolgen in natürlicher Sprache. Referenzdialoge bilden eine Obermenge verschiedener visuell-sprachlicher (VL) Aufgaben. Shikra kann daher natürliche Aufgaben im Zusammenhang mit Positionen wie REC und PointQA ebenso bewältigen wie herkömmliche VL-Aufgaben wie Bildbeschreibung (Image Captioning) und visuell-sprachliche Fragen (VQA). Experimentelle Ergebnisse zeigen die vielversprechende Leistungsfähigkeit von Shikra. Darüber hinaus ermöglicht es zahlreiche anspruchsvolle Anwendungen, etwa die Angabe der Koordinaten genannter Objekte innerhalb von Gedankengängen oder die Vergleichbarkeit von vom Benutzer markierten Bereichen. Quellcode, Modell und Datensatz sind über https://github.com/shikras/shikra zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp