Die Nutzung der Instabilität in schwach überwachten Objekterkennung

Schwach überwachte Objekterkennung (WSOD) konzentriert sich auf das Training von Objektdetektoren mit nur bildbasierten Annotationen und ist aufgrund der Lücke zwischen der Überwachung und dem Ziel herausfordernd. Die meisten existierenden Ansätze modellieren WSOD als ein Problem des multiplen Instanzlernens (MIL). Allerdings beobachten wir, dass das Ergebnis eines auf MIL basierenden Detektors instabil ist, d.h., die sichersten Begrenzungsrahmen ändern sich erheblich bei unterschiedlichen Initialisierungen. Wir quantifizieren diese Instabilität durch Einführung eines Metriks zur Messung und führen eine empirische Analyse der Ursachen für die Instabilität durch. Obwohl die Instabilität für die Erkennungsaufgabe schädlich zu sein scheint, argumentieren wir, dass sie genutzt werden kann, um die Leistung durch Fusions der Ergebnisse verschiedener initialisierter Detektoren zu verbessern. Um diese Idee umzusetzen, schlagen wir ein end-to-end-Framework mit mehreren Erkennungsästen vor und führen eine einfache Fusionsstrategie ein. Des Weiteren schlagen wir eine orthogonale Initialisierungsmethode vor, um den Unterschied zwischen den Erkennungsästen zu erhöhen. Durch die Nutzung der Instabilität erreichen wir 52,6 % und 48,0 % mAP auf den anspruchsvollen PASCAL VOC 2007 und 2012 Datensätzen, was jeweils den neuen Stand der Technik darstellt.