HyperAIHyperAI
vor 17 Tagen

RTIC: Residuelles Lernen für Text- und Bildzusammensetzung mithilfe eines Graphen-Convolutional Network

Minchul Shin, Yoonjae Cho, Byungsoo Ko, Geonmo Gu
RTIC: Residuelles Lernen für Text- und Bildzusammensetzung mithilfe eines Graphen-Convolutional Network
Abstract

In diesem Artikel untersuchen wir die kompositionelle Lernmethode für Bilder und Texte im Kontext der Bildretrieval-Aufgabe. Der Suchanfrage liegt ein Bild sowie ein Text zugrunde, der die gewünschten Modifikationen am Bild beschreibt; das Ziel besteht darin, das Zielbild zu finden, das die vorgegebenen Änderungen erfüllt und dem Eingabebild hinsichtlich seiner Ähnlichkeit entspricht, indem Informationen aus beiden Modalitäten – Bild und Text – komponiert werden. Um dieses Problem zu adressieren, schlagen wir eine neuartige Architektur vor, die speziell für die Aufgabe der Bild-Text-Komposition entwickelt wurde, und zeigen, dass die vorgeschlagene Struktur in der Lage ist, die Unterschiede zwischen Quell- und Zielbild unter Bedingung des Textes effektiv zu kodieren. Darüber hinaus führen wir eine neue gemeinsame Trainingsmethode ein, die auf Graph-Convolutional Networks (GCN) basiert und allgemein für beliebige bestehende Kompositionsverfahren in einer plug-and-play-Weise anwendbar ist. Wir stellen fest, dass die vorgeschlagene Methode die Leistung konsistent verbessert und auf verschiedenen Benchmarks die derzeit besten Ergebnisse erzielt. Um irreführende experimentelle Ergebnisse durch triviale Trainings-Hyperparameter zu vermeiden, reproduzieren wir alle einzelnen Baselines und trainieren die Modelle in einer einheitlichen Trainingsumgebung. Wir gehen davon aus, dass dieser Ansatz unerwünschte Effekte durch irrelevanten Komponenten unterdrücken und die Fähigkeit des Bild-Text-Kompositionsmoduls stärker hervorheben wird. Zudem erreichen wir die derzeit beste Leistung, ohne die Trainingsumgebung einzuschränken, was die Überlegenheit unserer Methode unter Berücksichtigung der Verbesserungen durch Hyperparameter-Tuning unterstreicht. Der Quellcode, einschließlich aller Baseline-Methoden, ist unter https://github.com/nashory/rtic-gcn-pytorch veröffentlicht.