HyperAIHyperAI
vor 2 Monaten

Text und Bild kombinieren für die Bildersuche - Eine empirische Odyssee

Nam Vo; Lu Jiang; Chen Sun; Kevin Murphy; Li-Jia Li; Li Fei-Fei; James Hays
Text und Bild kombinieren für die Bildersuche - Eine empirische Odyssee
Abstract

In dieser Arbeit untersuchen wir die Aufgabe der Bildsuche, bei der die Eingabeabfrage in Form eines Bildes und zusätzlichen Textes formuliert wird, der gewünschte Änderungen am Eingangsbild beschreibt. Zum Beispiel können wir ein Bild des Eiffelturms präsentieren und das System auffordern, Bilder zu finden, die optisch ähnlich sind, aber kleinere Änderungen aufweisen, wie etwa eine Aufnahme zur Nachtstunde anstelle des Tageslichts. Um diese Aufgabe zu bewältigen, lernen wir eine Ähnlichkeitsmetrik zwischen einem Zielbild und einem Quellbild plus Quelltext. Dabei entwickeln wir eine Einbettungs- und Kompositions-Funktion, sodass die Merkmale des Zielbildes den Merkmalen des Quellbildes plus Textkomposition nahekommen. Wir schlagen einen neuen Ansatz vor, um Bild und Text mithilfe einer solchen Funktion zu kombinieren, der speziell für die Suchaufgabe konzipiert ist. Wir zeigen, dass dieser Ansatz bestehende Methoden auf drei verschiedenen Datensätzen übertrifft: Fashion-200k, MIT-States und einem neuen synthetischen Datensatz, den wir auf Basis von CLEVR erstellt haben (CLEVR). Darüber hinaus demonstrieren wir, dass unser Ansatz auch zur Klassifikation von Eingabeabfragen eingesetzt werden kann, neben der Bildsuche.

Text und Bild kombinieren für die Bildersuche - Eine empirische Odyssee | Neueste Forschungsarbeiten | HyperAI