Vista-LLaMA: Reduzierung von Halluzinationen in Video-Sprachmodellen durch gleiche Distanz zu visuellen Tokens

Neuere Fortschritte in großen Video-Sprache-Modellen haben vielversprechende Ergebnisse bei der Videoverstehensaufgabe gezeigt. Aktuelle Ansätze wandeln Videos einfach in Sprach-Token um und nutzen große Sprachmodelle für multimodale Aufgaben. Dieser Ansatz führt jedoch oft zur Generierung von irrelevanten Inhalten, sogenannten „Halluzinationen“, insbesondere wenn die Textlänge zunimmt und der Einfluss des Videos abnimmt. Um dieses Problem anzugehen, schlagen wir Vista-LLaMA vor, einen neuartigen Rahmen, der die konstante Distanz zwischen allen visuellen Token und beliebigen Sprachtoken unabhängig von der Länge der generierten Texte beibehält. Vista-LLaMA verzichtet auf relative Positionskodierung bei der Berechnung der Aufmerksamkeitsgewichte zwischen visuellen und Text-Token, während die Positionskodierung für Text und Text-Token beibehalten wird. Dadurch wird der Einfluss der visuellen Token auf die Textgenerierung verstärkt, insbesondere wenn der relative Abstand zwischen visuellen und Text-Token groß ist. Die vorgeschlagene Aufmerksamkeitsmechanik verringert signifikant die Wahrscheinlichkeit, irrelavante Texte im Zusammenhang mit dem Videoinhalt zu generieren. Darüber hinaus präsentieren wir einen sequenziellen visuellen Projektor, der den aktuellen Videoframe unter Nutzung des vorherigen Frames in Sprachraum-Token projiziert. Dieser Ansatz erfasst nicht nur die zeitliche Beziehung innerhalb des Videos, sondern ermöglicht auch, dass weniger visuelle Token den gesamten Videoinhalt erfassen. Unser Ansatz übertrifft verschiedene vorherige Methoden (z. B. Video-ChatGPT, MovieChat) deutlich auf vier anspruchsvollen, offenen Video-Fragen-Antwort-Benchmarks. Wir erreichen eine Genauigkeit von 60,7 beim zero-shot NExT-QA und 60,5 beim zero-shot MSRVTT-QA, was eine neue state-of-the-art-Leistung darstellt. Das Projekt ist unter https://jinxxian.github.io/Vista-LLaMA verfügbar.