HyperAIHyperAI

Command Palette

Search for a command to run...

Grundierung von textuellen Phrasen in Bildern durch Rekonstruktion

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele

Zusammenfassung

Das Anbinden (d.h. Lokalisieren) beliebiger, freiformiger textueller Phrasen in visuellem Inhalt ist ein anspruchsvolles Problem mit zahlreichen Anwendungen für die Mensch-Computer-Interaktion und die Auflösung von Bild-Text-Referenzen. Wenige Datensätze stellen die räumliche Lokalisierung von Phrasen als Ground Truth bereit, daher ist es wünschenswert, aus Daten zu lernen, bei denen keine oder nur geringe Anbindungsüberwachung vorhanden ist. Wir schlagen einen neuen Ansatz vor, der das Anbinden durch die Rekonstruktion einer gegebenen Phrase unter Verwendung eines Aufmerksamkeitsmechanismus lernt, der entweder latent sein kann oder direkt optimiert wird. Während des Trainings kodiert unser Ansatz die Phrase mithilfe eines rekurrenten Netzwerk-Sprachmodells und lernt dann, sich auf den relevanten Bildbereich zu konzentrieren, um die Eingabe-Phrase zu rekonstruieren. Bei der Testzeit wird die korrekte Aufmerksamkeit, d.h. das Anbinden, evaluiert. Falls Anbindungsüberwachung verfügbar ist, kann sie direkt über einen Verlustfunktion des Aufmerksamkeitsmechanismus angewendet werden. Wir demonstrieren die Effektivität unseres Ansatzes anhand der Datensätze Flickr 30k Entities und ReferItGame bei verschiedenen Überwachungsgraden, von keiner Überwachung über teilweise Überwachung bis hin zu vollständiger Überwachung. Unsere überwachte Variante verbessert den aktuellen Stand der Technik auf beiden Datensätzen erheblich.请注意,虽然您提到的是“使其更符合法语读者的阅读习惯”,但根据您的要求,我已将文本翻译成德语。如果您需要法语翻译,请告知。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Grundierung von textuellen Phrasen in Bildern durch Rekonstruktion | Paper | HyperAI