HyperAI

SearchLVLMs-Framework

Das SearchLVLMs-Framework ist eine Plug-and-Play-Lösung, die 2024 gemeinsam vom Shanghai Artificial Intelligence Laboratory (OpenGVLab), dem Beijing Institute of Technology, der Zhejiang University und der University of Hong Kong vorgeschlagen wurde und die darauf abzielt, die Fähigkeit bestehender groß angelegter visueller Sprachmodelle (LVLMs) zur Beantwortung visueller Fragen (VQA) über das neueste Wissen zu verbessern. Die relevanten Papierergebnisse sindSearchLVLMs: Ein Plug-and-Play-Framework zur Erweiterung großer Vision-Language-Modelle durch die Suche nach aktuellem Internetwissen".

Umfangreiche Vision-Language-Modelle (wie etwa die LLaVA-Familie) weisen in vielen Situationen eine schlechte Leistung auf, da sie nicht häufig aktualisiert werden können und nicht über die neuesten Erkenntnisse informiert sind (z. B. der Sänger des Titelsongs eines neuen Films). Das SearchLVLMs-Framework verbessert dieses Problem, indem es in der Inferenzphase eine Verbesserung der Internetsuche bereitstellt, um LVLMs dabei zu helfen, das neueste Wissen zu erlangen.

Das SearchLVLMs-Framework besteht hauptsächlich aus drei Teilen: Abfragegenerierung, Suchmaschinenaufruf und hierarchische Filterung. Während der Abfragegenerierungsphase muss das Framework die Frage und das Bild vollständig verstehen, um sie in eine für Suchmaschinen geeignete Textabfrage zu übersetzen. Während der Suchmaschinenaufrufphase können Benutzer basierend auf dem Fragetyp die anzurufende Suchmaschinenkategorie auswählen. Schließlich trainiert das Framework in der hierarchischen Filterphase ein Modell, um effektiv die hilfreichsten Inhalte aus den von der Suchmaschine zurückgegebenen Webseiten zu finden.

Experimentelle Ergebnisse zeigen, dass das SearchLVLMs-Framework die Leistung von LVLMs bei der Beantwortung von Fragen, die das neueste Wissen erfordern, erheblich verbessern kann, mit einer Genauigkeitsrate, die GPT-4V um etwa 25% übertrifft. Das vorgeschlagene SearchLVLMs-Framework bietet eine Plug-and-Play-Lösung für große multimodale Modelle, die es ihnen ermöglicht, das neueste Internetwissen nahtlos zu integrieren und die Fähigkeit des Modells zu verbessern, Feedback zu Echtzeitinformationen zu liefern.