Bounding Box-Annotierungen nutzen für die Mehrfachobjekterkennung

Faltungsschichtneuronale Netze (CNNs) haben sich als allgemeine Merkmalsrepräsentationen für Objekterkennungsanwendungen mit herausragender Leistung bewährt. Allerdings sind globale CNN-Merkmale bei multilabel-Bildern, die mehrere Objekte aus verschiedenen Kategorien, Größen und Positionen enthalten, nicht optimal. In dieser Arbeit integrieren wir lokale Informationen, um die Merkmalsdiskriminativität zu verbessern. Insbesondere extrahieren wir zunächst Objektvorschläge aus jedem Bild. Indem jedes Bild als eine „Tasche“ und die daraus extrahierten Objektvorschläge als Instanzen betrachtet werden, transformieren wir das Problem der multilabel-Erkennung in ein Problem des multiklassen-multinstanz-Lernens. Anschließend ergänzen wir die übliche CNN-Merkmalsrepräsentation aus jedem Vorschlag durch die Nutzung von Bodenwahrheits-Annotations von Begrenzungsrahmen (starken Labels), um auf Basis der nächsten Nachbarbeziehungen lokaler Regionen einen mehrfachansichtigen Pipeline zu bilden. Das vorgeschlagene mehrfachansichtige multinstanz-Framework nutzt sowohl schwache als auch starke Labels effektiv und verfügt wichtigerweise über eine Generalisierungsfähigkeit, die sogar die Leistung unbekannter Kategorien durch teilweise starke Labels anderer Kategorien verbessern kann. Unser Framework wird anhand zweier multilabel-Benchmark-Datensätze umfangreich mit den neuesten manuell gestalteten Merkmalsbasierten Methoden und CNN-basierten Methoden verglichen. Die experimentellen Ergebnisse bestätigen die Diskriminativität und Generalisierungsfähigkeit des vorgeschlagenen Frameworks. Mit starken Labels ist unser Framework in der Lage, in beiden Datensätzen Spitzenleistungen zu erzielen.请注意,这里将"bag"翻译为"Tasche",在多示例学习(multi-instance learning)的上下文中,通常会使用这个术语来表示一个包含多个实例的集合。但根据具体上下文的不同,也可以考虑将其翻译为"Beutel"或"Mehrfachinstanz". 如果有其他特定的术语偏好,请告知我。