Lernen aus Webdaten mit einem selbstorganisierenden Speichermodul

Das Lernen aus Webdaten hat in den letzten Jahren viel Forschungsinteresse geweckt. Allerdings haben gescrapte Webbilder in der Regel zwei Arten von Störungen: Etikettstörung und Hintergrundstörung, die ihre effektive Nutzung erschweren. Die meisten existierenden Methoden basieren entweder auf menschlicher Überwachung oder ignorieren die Hintergrundstörung. In dieser Arbeit schlagen wir eine neuartige Methode vor, die in der Lage ist, beide Arten von Störungen gleichzeitig zu behandeln, ohne saubere Bilder im Trainingsprozess zu benötigen. Insbesondere formulieren wir unsere Methode im Rahmen des Multi-Instance-Learnings, indem wir ROIs (d.h., Bilder und deren Regionenvorschläge) derselben Kategorie in Bags gruppieren. Den ROIs in jedem Bag werden unterschiedliche Gewichte zugewiesen, basierend auf den repräsentativen/diskriminierenden Scores ihrer nächsten Cluster, wobei die Cluster und ihre Scores durch unser speziell entwickeltes Speichermodul ermittelt werden. Unser Speichermodul kann nahtlos mit dem Klassifikationsmodul integriert werden, was ein System ermöglicht, das von Anfang bis Ende trainiert werden kann. Ausführliche Experimente auf vier Benchmark-Datensätzen zeigen die Effektivität unserer Methode.