HyperAIHyperAI

Command Palette

Search for a command to run...

UDK-VQA-Datengenerierungsframework

Datum

vor einem Jahr

Das UDK-VQA-Framework ist ein Datengenerierungsframework, das 2024 gemeinsam vom Shanghai Artificial Intelligence Laboratory, dem Beijing Institute of Technology, der Zhejiang University und der University of Hong Kong vorgeschlagen wurde. Es soll große multimodale Modelle dabei unterstützen, Feedback zu Echtzeitinformationen zu liefern. Die relevanten Papierergebnisse sindSearchLVLMs: Ein Plug-and-Play-Framework zur Erweiterung großer Vision-Language-Modelle durch die Suche nach aktuellem Internetwissen".

Der Hauptzweck des UDK-VQA-Frameworks besteht darin, vorhandene Large Scale Vision-Language Models (LVLMs) zu verbessern, um sie in die Lage zu versetzen, Visual Question Answering (VQA) mit modernstem Wissen zu handhaben. Da große Vision-Language-Modelle nicht häufig genug aktualisiert werden können, um die neuesten Erkenntnisse zu integrieren, versagen sie in vielen Fällen bei der Verarbeitung von Szenarien, die neue Informationen erfordern. Wenn beispielsweise ein LVLM im Januar 2024 veröffentlicht wird, ist nicht bekannt, wer der Interpret des Titelsongs für einen Film ist, der im April 2024 veröffentlicht wird.

Um dieses Problem zu lösen, schlagen wir ein Plug-and-Play-Framework vor, um LVLMs während der Inferenz über die Internetsuche mit dem neuesten Wissen zu versorgen, die sogenannte Internet Augmentation Generation (IAG). Das UDK-VQA-Framework trainiert ein hierarchisches Filtermodell, um effektiv und effizient die hilfreichsten Inhalte auf den von Suchmaschinen zurückgegebenen Webseiten zu finden und LVLMs mit den neuesten Erkenntnissen zu versorgen.

Um das Modell zu trainieren und die Leistung des Frameworks zu bewerten, schlugen die Forscher außerdem einen Prozess zur automatischen Generierung von nachrichtenbezogenen VQA-Beispielen vor, um einen Datensatz mit dem Namen UDK-VQA zu erstellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UDK-VQA-Datengenerierungsframework | Wiki | HyperAI