HyperAIHyperAI

Command Palette

Search for a command to run...

Vista-LLaMA: Reduzierung von Halluzinationen in Video-Sprachmodellen durch gleiche Distanz zu visuellen Tokens

Fan Ma Xiaojie Jin Heng Wang Yuchen Xian Jiashi Feng Yi Yang

Zusammenfassung

Neuere Fortschritte in großen Video-Sprache-Modellen haben vielversprechende Ergebnisse bei der Videoverstehensaufgabe gezeigt. Aktuelle Ansätze wandeln Videos einfach in Sprach-Token um und nutzen große Sprachmodelle für multimodale Aufgaben. Dieser Ansatz führt jedoch oft zur Generierung von irrelevanten Inhalten, sogenannten „Halluzinationen“, insbesondere wenn die Textlänge zunimmt und der Einfluss des Videos abnimmt. Um dieses Problem anzugehen, schlagen wir Vista-LLaMA vor, einen neuartigen Rahmen, der die konstante Distanz zwischen allen visuellen Token und beliebigen Sprachtoken unabhängig von der Länge der generierten Texte beibehält. Vista-LLaMA verzichtet auf relative Positionskodierung bei der Berechnung der Aufmerksamkeitsgewichte zwischen visuellen und Text-Token, während die Positionskodierung für Text und Text-Token beibehalten wird. Dadurch wird der Einfluss der visuellen Token auf die Textgenerierung verstärkt, insbesondere wenn der relative Abstand zwischen visuellen und Text-Token groß ist. Die vorgeschlagene Aufmerksamkeitsmechanik verringert signifikant die Wahrscheinlichkeit, irrelavante Texte im Zusammenhang mit dem Videoinhalt zu generieren. Darüber hinaus präsentieren wir einen sequenziellen visuellen Projektor, der den aktuellen Videoframe unter Nutzung des vorherigen Frames in Sprachraum-Token projiziert. Dieser Ansatz erfasst nicht nur die zeitliche Beziehung innerhalb des Videos, sondern ermöglicht auch, dass weniger visuelle Token den gesamten Videoinhalt erfassen. Unser Ansatz übertrifft verschiedene vorherige Methoden (z. B. Video-ChatGPT, MovieChat) deutlich auf vier anspruchsvollen, offenen Video-Fragen-Antwort-Benchmarks. Wir erreichen eine Genauigkeit von 60,7 beim zero-shot NExT-QA und 60,5 beim zero-shot MSRVTT-QA, was eine neue state-of-the-art-Leistung darstellt. Das Projekt ist unter https://jinxxian.github.io/Vista-LLaMA verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vista-LLaMA: Reduzierung von Halluzinationen in Video-Sprachmodellen durch gleiche Distanz zu visuellen Tokens | Paper | HyperAI