Kontextuelle Debiasing für die visuelle Erkennung mit kausalen Mechanismen

Als ein häufiges Problem in der visuellen Welt bezeichnet kontextuelle Verzerrung (contextual bias), dass die Erkennung möglicherweise stärker von der gemeinsamen Auftretenshäufigkeit von Objekten abhängt als von den Objekten selbst. Dieses Phänomen tritt besonders ausgeprägt in multi-label-Aufgaben auf, da mehrere Ziele existieren und keine räumliche Information über deren Position vorliegt. Obwohl einige Studien sich mit der Bewältigung dieses Problems beschäftigt haben, bleibt die Beseitigung der negativen Auswirkungen des Kontexts herausfordernd, da die Repräsentation der kontextuellen Verzerrung schwer zu erlangen ist. In diesem Artikel stellen wir einen einfachen, aber wirksamen Rahmenwerk vor, das kausale Inferenz nutzt, um kontextuelle Verzerrungen zu mildern. Zunächst präsentieren wir ein strukturelles kausales Modell (Structural Causal Model, SCM), das die kausalen Beziehungen zwischen Objektrepräsentationen, Kontext und Vorhersagen klar macht. Anschließend entwickeln wir ein neuartiges kausales Kontext-Debiasing-Modul (Causal Context Debiasing, CCD), das den direkten Effekt einer Instanz verfolgt. Konkret verwenden wir kausale Intervention, um den Einfluss von Störvariablen (confounders) zu eliminieren, und Gegenfaktische Schlussfolgerung, um einen Gesamtdirekten Effekt (Total Direct Effect, TDE) zu ermitteln, der frei von kontextueller Verzerrung ist. Dabei ist unser CCD-Framework orthogonal zu bestehenden statistischen Modellen und kann daher problemlos auf beliebige andere Architekturen übertragen werden. Umfangreiche Experimente auf mehreren Multi-Label-Klassifikationsdatensätzen belegen die Überlegenheit unseres Modells gegenüber anderen state-of-the-art-Baselines.