Bottom-Up und Top-Down Aufmerksamkeit für Bildunterschriften und visuelle Fragebeantwortung

Top-down Mechanismen der visuellen Aufmerksamkeit werden häufig bei der Bildunterschriftenerstellung und beim visuellen Fragenbeantworten (VQA) eingesetzt, um durch eine detaillierte Analyse und sogar mehrstufige Schlussfolgerungen ein tieferes Verständnis von Bildern zu ermöglichen. In dieser Arbeit schlagen wir einen kombinierten Ansatz von bottom-up und top-down Aufmerksamkeitsmechanismen vor, der es ermöglicht, die Aufmerksamkeit auf Objekte und andere auffällige Bildbereiche zu richten. Dies bildet die natürliche Grundlage für die Betrachtung von Aufmerksamkeit. Innerhalb unseres Ansatzes schlägt der bottom-up Mechanismus (basierend auf Faster R-CNN) Bildbereiche vor, wobei jedem Bereich ein zugehöriger Merkmalsvektor zugeordnet wird, während der top-down Mechanismus die Gewichtungen dieser Merkmale bestimmt. Die Anwendung dieses Ansatzes auf die Bildunterschriftenerstellung führt zu neuen Standarts in dieser Aufgabe, wie unsere Ergebnisse am MSCOCO Testserver zeigen: Wir erreichen CIDEr-, SPICE- und BLEU-4-Werte von 117,9, 21,5 und 36,9 jeweils. Die breite Anwendbarkeit der Methode wird durch ihre Anwendung auf VQA demonstriert, wobei wir den ersten Platz im VQA Challenge 2017 belegen.请注意,虽然您的请求中提到“使其更符合法语读者的阅读习惯”,但您需要的是德语翻译。因此,我已根据德语的表达习惯进行了调整。如果您有任何其他要求,请随时告知。