Visuelle Fragebeantwortung durch das Bootstrappen von Hartem Fokus

Aufmerksamkeitsmechanismen in der biologischen Wahrnehmung werden als selektive Filter angesehen, die Teilmengen von Wahrnehmungsinformationen für eine komplexere Verarbeitung auswählen, die es auf allen sensorischen Eingaben nicht möglich wäre durchzuführen. Im Bereich der Computer Vision wurde jedoch bisher wenig über harte Aufmerksamkeit erforscht, bei der bestimmte Informationen selektiv ignoriert werden, obwohl weiche Aufmerksamkeit, bei der Informationen neu gewichtet und aggregiert, aber niemals herausgefiltert werden, erfolgreich eingesetzt wird. In dieser Arbeit stellen wir einen neuen Ansatz für harte Aufmerksamkeit vor und zeigen, dass er sehr wettbewerbsfähige Ergebnisse auf kürzlich veröffentlichten Datensätzen für visuelle Fragebeantwortung erzielt. Dieser Ansatz erreicht in einigen Fällen sogar bessere Leistungen als vergleichbare Architekturen mit weicher Aufmerksamkeit, während er einige Merkmale vollständig ignoriert. Obwohl harte Aufmerksamkeitsmechanismen als nicht differenzierbar gelten, fanden wir heraus, dass die Merkmalsstärken mit semantischer Relevanz korrelieren und ein nützliches Signal für das Selektionskriterium unseres Mechanismus liefern. Da harte Aufmerksamkeit wichtige Merkmale der Eingabeinformation auswählt, kann sie effizienter sein als vergleichbare Mechanismen mit weicher Aufmerksamkeit. Dies ist besonders wichtig für aktuelle Ansätze, die nicht-lokale paarweise Operationen verwenden, bei denen die Berechnungs- und Speicherkosten quadratisch zur Anzahl der Merkmale sind.