HyperAIHyperAI
vor 2 Monaten

Zusammenfassung und Suche: Lernen von konsensbewusster dynamischer Faltung für Co-Salienzerkennung

Zhang, Ni ; Han, Junwei ; Liu, Nian ; Shao, Ling
Zusammenfassung und Suche: Lernen von konsensbewusster dynamischer Faltung für Co-Salienzerkennung
Abstract

Menschen führen die Co-Salienzerkennung durch, indem sie zunächst das konsensuelle Wissen in der gesamten Gruppe zusammenfassen und dann entsprechende Objekte in jedem Bild suchen. Vorherige Methoden fehlen oft an Robustheit, Skalierbarkeit oder Stabilität bei dem ersten Prozess und fügen einfach konsensuelle Merkmale mit Bildmerkmalen für den zweiten Prozess zusammen. In diesem Artikel schlagen wir ein neues konsensbewusstes dynamisches Faltungsmodell vor, um den „Zusammenfassungs- und Suchprozess“ explizit und effektiv durchzuführen. Um konsensuelle Bildmerkmale zusammenzufassen, verwenden wir zunächst eine effektive Pooling-Methode, um robuste Merkmale für jedes einzelne Bild zu extrahieren, und aggregieren dann überbildliche Konsenshinweise mittels des Selbst-Aufmerksamkeitsmechanismus (self-attention mechanism). Auf diese Weise erfüllt unser Modell die Anforderungen an Skalierbarkeit und Stabilität. Als Nächstes generieren wir dynamische Kerne aus den Konsensmerkmalen, um das zusammengefasste konsensuelle Wissen zu kodieren. Zwei Arten von Kernen werden ergänzend generiert, um sowohl detaillierte bildspezifische Konsensobjekthinweise als auch grobe gruppenweises gemeinsames Wissen zusammenzufassen. Dann können wir die Objektsuche effektiv auf mehreren Skalen durchführen, indem wir die dynamische Faltung einsetzen. Darüber hinaus schlagen wir eine neuartige und effektive Datenverarbeitungsmethode vor, um unser Netzwerk zu trainieren. Experimentelle Ergebnisse auf vier Benchmark-Datensätzen bestätigen die Effektivität unserer vorgeschlagenen Methode. Unser Code und Salienzkarten sind unter \url{https://github.com/nnizhang/CADC} verfügbar.