Diskriminativer Co-Salienz- und Hintergrundminierungs-Transformer für die Erkennung von Co-Salienten Objekten

Die meisten bisherigen Arbeiten zum Detektieren von ko-salienten Objekten konzentrieren sich hauptsächlich auf die Extraktion ko-salienter Hinweise durch das Auswerten der Konsistenzbeziehungen zwischen Bildern, während sie eine explizite Untersuchung von Hintergrundregionen vernachlässigen. In diesem Artikel schlagen wir einen Rahmen für diskriminatives ko-salientes und Hintergrund-Mining mit einem Transformer (DMT) vor, der auf mehreren wirtschaftlichen multi-granularen Korrelationsmodulen basiert, um sowohl ko-saliente als auch Hintergrundinformationen explizit zu erforschen und ihre Diskriminierung effektiv zu modellieren. Insbesondere schlagen wir zunächst ein region-to-region-Korrelationsmodul vor, das interbildliche Beziehungen in pixelbasierte Segmentierungseigenschaften einbringt, während es die Recheneffizienz beibehält. Anschließend nutzen wir zwei Arten vorgegebener Tokens, um ko-saliente und Hintergrundinformationen durch unsere kontrastinduzierten pixel-to-token-Korrelations- und ko-salientes token-to-token-Korrelationsmodule zu erforschen. Zudem haben wir ein token-gesteuertes Feature-Verfeinerungsmodul entwickelt, um die Trennbarkeit der Segmentierungseigenschaften unter der Führung der gelernten Tokens zu verbessern. Wir führen eine iterative gegenseitige Förderung für die Extraktion von Segmentierungseigenschaften und die Tokenkonstruktion durch. Experimentelle Ergebnisse auf drei Benchmark-Datensätzen zeigen die Effektivität unserer vorgeschlagenen Methode. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/dragonlee258079/DMT.