HyperAIHyperAI
vor 17 Tagen

Feinabgestimmte Bildklassifikation und Retrieval durch Kombination visueller und lokal gepoolter textueller Merkmale

Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas
Feinabgestimmte Bildklassifikation und Retrieval durch Kombination visueller und lokal gepoolter textueller Merkmale
Abstract

Der in einem Bild enthaltene Text trägt hochwertige Semantik, die genutzt werden kann, um ein umfassenderes Bildverständnis zu ermöglichen. Insbesondere liefert die bloße Anwesenheit von Text starke, leitende Informationen, die für die Lösung einer Vielzahl von Aufgaben im Bereich des Computer Vision eingesetzt werden sollten, wie beispielsweise Bildretrieval, feinabgestufte Klassifikation und visuelles Fragenbeantworten. In diesem Artikel behandeln wir das Problem der feinabgestuften Klassifikation und des Bildretrievals, indem wir textuelle Informationen gemeinsam mit visuellen Hinweisen nutzen, um die inhärente Beziehung zwischen diesen beiden Modalitäten besser zu erfassen. Der Innovationsgehalt des vorgeschlagenen Modells beruht auf der Verwendung eines PHOC-Descriptors zur Erstellung eines Bag-of-Text-Wörter-Modells sowie einer Fisher-Vektor-Encodierung, die die Morphologie des Textes erfasst. Dieser Ansatz liefert eine stärkere multimodale Darstellung für diese Aufgabe, und wie unsere Experimente zeigen, erreicht er state-of-the-art-Ergebnisse bei zwei unterschiedlichen Aufgaben: feinabgestufter Klassifikation und Bildretrieval.

Feinabgestimmte Bildklassifikation und Retrieval durch Kombination visueller und lokal gepoolter textueller Merkmale | Neueste Forschungsarbeiten | HyperAI