HyperAIHyperAI
vor 11 Tagen

HADA: Ein graphenbasiertes Amalgamationsframework für die Bild-Text-Retrieval-Aufgabe

Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
HADA: Ein graphenbasiertes Amalgamationsframework für die Bild-Text-Retrieval-Aufgabe
Abstract

Viele Modelle wurden für Aufgaben im Bereich Vision und Sprache vorgeschlagen, insbesondere für die Aufgabe der Bild-Text-Recherche. Alle derzeit besten (SOTA) Modelle in dieser Herausforderung enthielten Hunderte von Millionen Parameter und wurden zudem auf großen externen Datensätzen vortrainiert, die sich als wirksam erwiesen haben, um die Gesamtleistung erheblich zu steigern. Es ist nicht einfach, ein neues Modell mit einer innovativen Architektur zu entwickeln und es intensiv auf einem riesigen Datensatz mit vielen GPUs zu trainieren, um bereits im Internet verfügbare SOTA-Modelle zu übertreffen. In diesem Paper stellen wir einen kompakten, graphenbasierten Ansatz namens HADA vor, der vortrainierte Modelle kombiniert, um eine bessere Leistung zu erzielen, anstatt von Grund auf neu zu bauen. Zunächst erstellen wir eine Graphstruktur, in der die Knoten die aus vortrainierten Modellen extrahierten Merkmale darstellen und die Kanten diese Knoten verbinden. Diese Graphstruktur dient dazu, die Informationen aus jedem vortrainierten Modell miteinander zu erfassen und zu fusionieren. Anschließend wird ein Graph-Neurales-Netzwerk eingesetzt, um die Verbindungen zwischen den Knoten zu aktualisieren und so einen repräsentativen Embedding-Vektor für Bild und Text zu erzeugen. Schließlich verwenden wir die Kosinus-Ähnlichkeit, um Bilder mit ihren relevanten Texten sowie umgekehrt zu matchen, um eine geringe Inferenzzeit zu gewährleisten. Unsere Experimente zeigen, dass HADA, obwohl es nur eine geringe Anzahl an trainierbaren Parametern enthält, die Baseline-Leistung auf dem Flickr30k-Datensatz um mehr als 3,6 % in Bezug auf die Bewertungsmetriken steigern kann. Zudem wurde das vorgeschlagene Modell weder auf einem externen Datensatz trainiert noch benötigte es viele GPUs – lediglich ein einziger GPU genügt, bedingt durch die geringe Anzahl an Parametern. Der Quellcode ist unter https://github.com/m2man/HADA verfügbar.

HADA: Ein graphenbasiertes Amalgamationsframework für die Bild-Text-Retrieval-Aufgabe | Neueste Forschungsarbeiten | HyperAI