Un Cadre d'Apprentissage Faiblement Supervisé pour la Détection d'Objets Salients à l'Aide de Labels Hybrides

Les méthodes de détection d'objets saillants (SOD) entièrement supervisées ont connu des progrès considérables, mais ces méthodes s'appuient souvent sur un grand nombre d'annotations au niveau des pixels, qui sont chronophages et nécessitent beaucoup de main-d'œuvre. Dans cet article, nous nous concentrons sur une nouvelle tâche de SOD faiblement supervisée avec des étiquettes hybrides, où les labels de supervision comprennent un grand nombre d'étiquettes grossières générées par la méthode non supervisée traditionnelle et un petit nombre d'étiquettes réelles. Pour résoudre les problèmes de bruit des labels et d'imbalance quantitative dans cette tâche, nous concevons un nouveau cadre de pipeline avec trois stratégies d'entraînement sophistiquées. En ce qui concerne le cadre du modèle, nous découplons la tâche en deux sous-tâches : la raffinement des labels et la détection d'objets saillants, qui collaborent entre elles et s'entraînent alternativement. Plus précisément, le R-Net est conçu comme un modèle encodeur-décodeur à double flux équipé de mécanismes de guidage et d'agrégation (BGA), visant à corriger les étiquettes grossières pour obtenir des pseudo-étiquettes plus fiables, tandis que le S-Net est un réseau SOD interchangeable supervisé par les pseudo-étiquettes générées par le R-Net actuel. Il convient de noter que nous n'avons besoin que du S-Net entraîné pour effectuer les tests. De plus, afin de garantir l'efficacité et l'efficience de l'entraînement du réseau, nous concevons trois stratégies d'entraînement, incluant le mécanisme d'itération alternée, le mécanisme incrémentiel par groupe et le mécanisme de vérification de crédibilité. Les expériences menées sur cinq benchmarks de SOD montrent que notre méthode obtient des performances compétitives face aux méthodes faiblement supervisées/non supervisées tant qualitativement que quantitativement.