HyperAIHyperAI
vor 18 Tagen

Hohe-Ordnung-Interaktion für schwach überwachte feinkörnige visuelle Kategorisierung

{Shaozi Li, Zhun Zhong, Zhimin Luo, Junzhen Wang, Nanyu Li}
Abstract

Feinabgestufte visuelle Kategorisierung (Fine-Grained Visual Categorization, FGVC) stellt aufgrund der großen innerhalb-Unterkategorie- und geringen zwischen-Unterkategorie-Varianz eine herausfordernde Aufgabe dar. Kürzliche Studien bearbeiten diese Aufgabe in einer schwach überwachten Weise, ohne Expertenannotationen zu den Teilen der Objekte zu verwenden. Unter diesen Methoden gehören jene, die auf bilinearer Pooling basieren, zu den wichtigsten Ansätzen zur Berechnung der Wechselwirkung zwischen tiefen Merkmalen und haben sich als äußerst wirksam erwiesen. Allerdings konzentrieren sich diese Verfahren hauptsächlich auf die Korrelation innerhalb einer spezifischen Schicht und ignorieren weitgehend die hochkomplexen Wechselwirkungen zwischen mehreren Schichten. In dieser Arbeit argumentieren wir, dass die Berücksichtigung der hohen Wechselwirkungen zwischen Merkmalen mehrerer Schichten dazu beitragen kann, differenziertere feinabgestufte Merkmale zu erlernen. Dementsprechend schlagen wir eine Methode namens High-Order-Interaction (HOI) für FGVC vor. In unserer HOI wird ein effizientes, querschichtiges trilineares Pooling eingeführt, um die dritter Ordnung Wechselwirkung zwischen drei verschiedenen Schichten zu berechnen. Anschließend werden die dritter Ordnung Wechselwirkungen verschiedener Kombinationen fusioniert, um die endgültige Darstellung zu erzeugen. Die HOI-Methode ermöglicht die Erzeugung differenzierterer Darstellungen und lässt sich problemlos mit zwei etablierten Techniken – der Aufmerksamkeitsmechanismus und der Triplet-Loss – kombinieren, um eine überlagerte Verbesserung zu erzielen. Umfangreiche Experimente an vier FGVC-Datensätzen zeigen die herausragende Überlegenheit unserer Methode gegenüber bilinearen Ansätzen und belegen, dass die vorgeschlagene Methode den Stand der Technik erreicht.