BTS-Net: Bi-directionaler Transfer- und Auswahl-Netzwerk für die RGB-D-Aufmerksamkeitsobjektdetektion

Die Tiefeninformation hat sich als nützlich für die Erkennung auffälliger Objekte in RGB-D-Bildern (RGB-D SOD) erwiesen. Allerdings leiden die häufig erhaltenen Tiefenkarten oft an geringer Qualität und Ungenauigkeit. Die meisten existierenden RGB-D-SOD-Modelle verfügen entweder nicht über Wechselwirkungen zwischen den Modalitäten oder nur über einseitige Wechselwirkungen von der Tiefen- zur RGB-Modality in ihren Encoder-Stufen, was zu ungenauen Encoder-Features führen kann, wenn schlechte Tiefeninformationen vorliegen. Um diese Einschränkung zu überwinden, schlagen wir vor, bereits früh im Encoder-Stadium progressive bidirektionale Wechselwirkungen durchzuführen, wodurch ein neuartiges bidirektionales Transfer-und-Auswahl-Netzwerk namens BTS-Net entsteht. Dieses Netzwerk verwendet eine Reihe von bidirektionalen Transfer-und-Auswahl-(BTS)-Modulen, um die Merkmale während des Kodierungsprozesses zu reinigen. Auf Basis der resultierenden robusten Encoder-Merkmale entwerfen wir zudem einen effizienten, leichtgewichtigen Gruppen-Decoder, um präzise endgültige Saliency-Vorhersagen zu erzielen. Umfassende Experimente auf sechs weit verbreiteten Datensätzen zeigen, dass BTS-Net 16 aktuelle state-of-the-art-Ansätze hinsichtlich vier zentraler Metriken übertrifft.