HyperAIHyperAI

Command Palette

Search for a command to run...

Feinabgestimmte Bildklassifikation und Retrieval durch Kombination visueller und lokal gepoolter textueller Merkmale

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

Zusammenfassung

Der in einem Bild enthaltene Text trägt hochwertige Semantik, die genutzt werden kann, um ein umfassenderes Bildverständnis zu ermöglichen. Insbesondere liefert die bloße Anwesenheit von Text starke, leitende Informationen, die für die Lösung einer Vielzahl von Aufgaben im Bereich des Computer Vision eingesetzt werden sollten, wie beispielsweise Bildretrieval, feinabgestufte Klassifikation und visuelles Fragenbeantworten. In diesem Artikel behandeln wir das Problem der feinabgestuften Klassifikation und des Bildretrievals, indem wir textuelle Informationen gemeinsam mit visuellen Hinweisen nutzen, um die inhärente Beziehung zwischen diesen beiden Modalitäten besser zu erfassen. Der Innovationsgehalt des vorgeschlagenen Modells beruht auf der Verwendung eines PHOC-Descriptors zur Erstellung eines Bag-of-Text-Wörter-Modells sowie einer Fisher-Vektor-Encodierung, die die Morphologie des Textes erfasst. Dieser Ansatz liefert eine stärkere multimodale Darstellung für diese Aufgabe, und wie unsere Experimente zeigen, erreicht er state-of-the-art-Ergebnisse bei zwei unterschiedlichen Aufgaben: feinabgestufter Klassifikation und Bildretrieval.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp