Grundierung von textuellen Phrasen in Bildern durch Rekonstruktion

Das Anbinden (d.h. Lokalisieren) beliebiger, freiformiger textueller Phrasen in visuellem Inhalt ist ein anspruchsvolles Problem mit zahlreichen Anwendungen für die Mensch-Computer-Interaktion und die Auflösung von Bild-Text-Referenzen. Wenige Datensätze stellen die räumliche Lokalisierung von Phrasen als Ground Truth bereit, daher ist es wünschenswert, aus Daten zu lernen, bei denen keine oder nur geringe Anbindungsüberwachung vorhanden ist. Wir schlagen einen neuen Ansatz vor, der das Anbinden durch die Rekonstruktion einer gegebenen Phrase unter Verwendung eines Aufmerksamkeitsmechanismus lernt, der entweder latent sein kann oder direkt optimiert wird. Während des Trainings kodiert unser Ansatz die Phrase mithilfe eines rekurrenten Netzwerk-Sprachmodells und lernt dann, sich auf den relevanten Bildbereich zu konzentrieren, um die Eingabe-Phrase zu rekonstruieren. Bei der Testzeit wird die korrekte Aufmerksamkeit, d.h. das Anbinden, evaluiert. Falls Anbindungsüberwachung verfügbar ist, kann sie direkt über einen Verlustfunktion des Aufmerksamkeitsmechanismus angewendet werden. Wir demonstrieren die Effektivität unseres Ansatzes anhand der Datensätze Flickr 30k Entities und ReferItGame bei verschiedenen Überwachungsgraden, von keiner Überwachung über teilweise Überwachung bis hin zu vollständiger Überwachung. Unsere überwachte Variante verbessert den aktuellen Stand der Technik auf beiden Datensätzen erheblich.请注意,虽然您提到的是“使其更符合法语读者的阅读习惯”,但根据您的要求,我已将文本翻译成德语。如果您需要法语翻译,请告知。