HyperAIHyperAI
vor 2 Monaten

OCNet: Objektkontext-Netzwerk für Szenenanalyse

Yuhui Yuan; Lang Huang; Jianyuan Guo; Chao Zhang; Xilin Chen; Jingdong Wang
OCNet: Objektkontext-Netzwerk für Szenenanalyse
Abstract

In dieser Arbeit behandeln wir die Aufgabe der semantischen Segmentierung mit einem neuen Kontextaggregationsverfahren, dem sogenannten \emph{Objekt-Kontext}, das sich darauf konzentriert, die Rolle von Objektinformationen zu verstärken. Ausgehend von der Tatsache, dass die Kategorie jedes Pixels von dem Objekt abhängt, dem es zugeordnet ist, definieren wir den Objekt-Kontext für jedes Pixel als die Menge aller Pixel, die derselben Kategorie wie das gegebene Pixel im Bild angehören. Wir verwenden eine binäre Relationsmatrix, um das Verhältnis zwischen allen Pixeln darzustellen, wobei der Wert eins anzeigt, dass zwei ausgewählte Pixel derselben Kategorie angehören und null anderesfalls.Wir schlagen vor, eine dichte Relationsmatrix als Ersatz für die binäre Relationsmatrix zu verwenden. Die dichte Relationsmatrix ist in der Lage, den Beitrag von Objektinformationen hervorzuheben, da die Relationsscores auf den Objektpixeln tendenziell höher sind als auf anderen Pixeln. Da die Schätzung der dichten Relationsmatrix quadratische Berechnungs- und Speicherkosten in Bezug auf die Eingabegröße erfordert, schlagen wir ein effizientes verzahntes spärliches Selbst-Aufmerksamkeitsverfahren (sparse self-attention scheme) vor, um die dichten Beziehungen zwischen beliebigen zwei von allen Pixeln durch die Kombination zweier spärlicher Relationmatrizen zu modellieren.Um reichhaltigere Kontextinformationen zu erfassen, kombinieren wir unser verzahntes spärliches Selbst-Aufmerksamkeitsverfahren weiterhin mit herkömmlichen mehrskaligen Kontextverfahren wie Pyramidenpooling~\citep{zhao2017pyramid} und dilatiertem räumlichem Pyramidenpooling~\citep{chen2018deeplab}. In empirischen Studien zeigen wir die Vorteile unseres Ansatzes durch wettbewerbsfähige Leistungen auf fünf anspruchsvollen Benchmarks: Cityscapes, ADE20K, LIP, PASCAL-Context und COCO-Stuff.

OCNet: Objektkontext-Netzwerk für Szenenanalyse | Neueste Forschungsarbeiten | HyperAI