UDK-VQA-Datengenerierungsframework
Das UDK-VQA-Framework ist ein Datengenerierungsframework, das 2024 gemeinsam vom Shanghai Artificial Intelligence Laboratory, dem Beijing Institute of Technology, der Zhejiang University und der University of Hong Kong vorgeschlagen wurde. Es soll große multimodale Modelle dabei unterstützen, Feedback zu Echtzeitinformationen zu liefern. Die relevanten Papierergebnisse sindSearchLVLMs: Ein Plug-and-Play-Framework zur Erweiterung großer Vision-Language-Modelle durch die Suche nach aktuellem Internetwissen".
Der Hauptzweck des UDK-VQA-Frameworks besteht darin, vorhandene Large Scale Vision-Language Models (LVLMs) zu verbessern, um sie in die Lage zu versetzen, Visual Question Answering (VQA) mit modernstem Wissen zu handhaben. Da große Vision-Language-Modelle nicht häufig genug aktualisiert werden können, um die neuesten Erkenntnisse zu integrieren, versagen sie in vielen Fällen bei der Verarbeitung von Szenarien, die neue Informationen erfordern. Wenn beispielsweise ein LVLM im Januar 2024 veröffentlicht wird, ist nicht bekannt, wer der Interpret des Titelsongs für einen Film ist, der im April 2024 veröffentlicht wird.
Um dieses Problem zu lösen, schlagen wir ein Plug-and-Play-Framework vor, um LVLMs während der Inferenz über die Internetsuche mit dem neuesten Wissen zu versorgen, die sogenannte Internet Augmentation Generation (IAG). Das UDK-VQA-Framework trainiert ein hierarchisches Filtermodell, um effektiv und effizient die hilfreichsten Inhalte auf den von Suchmaschinen zurückgegebenen Webseiten zu finden und LVLMs mit den neuesten Erkenntnissen zu versorgen.
Um das Modell zu trainieren und die Leistung des Frameworks zu bewerten, schlugen die Forscher außerdem einen Prozess zur automatischen Generierung von nachrichtenbezogenen VQA-Beispielen vor, um einen Datensatz mit dem Namen UDK-VQA zu erstellen.