vor 6 Monaten

Zusammenfassung

Der in einem Bild enthaltene Text trägt hochwertige Semantik, die genutzt werden kann, um ein umfassenderes Bildverständnis zu ermöglichen. Insbesondere liefert die bloße Anwesenheit von Text starke, leitende Informationen, die für die Lösung einer Vielzahl von Aufgaben im Bereich des Computer Vision eingesetzt werden sollten, wie beispielsweise Bildretrieval, feinabgestufte Klassifikation und visuelles Fragenbeantworten. In diesem Artikel behandeln wir das Problem der feinabgestuften Klassifikation und des Bildretrievals, indem wir textuelle Informationen gemeinsam mit visuellen Hinweisen nutzen, um die inhärente Beziehung zwischen diesen beiden Modalitäten besser zu erfassen. Der Innovationsgehalt des vorgeschlagenen Modells beruht auf der Verwendung eines PHOC-Descriptors zur Erstellung eines Bag-of-Text-Wörter-Modells sowie einer Fisher-Vektor-Encodierung, die die Morphologie des Textes erfasst. Dieser Ansatz liefert eine stärkere multimodale Darstellung für diese Aufgabe, und wie unsere Experimente zeigen, erreicht er state-of-the-art-Ergebnisse bei zwei unterschiedlichen Aufgaben: feinabgestufter Klassifikation und Bildretrieval.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Visuelle Dokumentenabfrage

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Visuelle Dokumentenabfrage

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Feinabgestimmte Bildklassifikation und Retrieval durch Kombination visueller und lokal gepoolter textueller Merkmale

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Feinabgestimmte Bildklassifikation und Retrieval durch Kombination visueller und lokal gepoolter textueller Merkmale

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Feinabgestimmte Bildklassifikation und Retrieval durch Kombination visueller und lokal gepoolter textueller Merkmale

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters