Versteckte Objekt-Erkennung

Wir präsentieren die erste systematische Studie zum Thema der Detektion verborgener Objekte (Concealed Object Detection, COD), deren Ziel es ist, Objekte zu identifizieren, die „vollständig“ in ihrem Hintergrund eingebettet sind. Die hohe intrinsische Ähnlichkeit zwischen den verborgenen Objekten und ihrem Hintergrund macht COD erheblich anspruchsvoller als traditionelle Objekterkennung/Segmentierung. Um dieses Problem besser zu verstehen, haben wir einen umfangreichen Datensatz gesammelt, der als COD10K bezeichnet wird und 10.000 Bilder umfasst, die verborgene Objekte aus 78 Kategorien in verschiedenen realen Szenarien zeigen.Darüber hinaus bieten wir reichhaltige Annotationen an, einschließlich Objektkategorien, Objektgrenzen, herausfordernde Attribute, objektbezogene Labels und instanzbezogene Annotationen. Unser COD10K ist bislang der größte COD-Datensatz mit den umfassendsten Annotationen, was eine umfassende Analyse von verborgenen Objekten ermöglicht und sogar dazu beitragen kann, den Fortschritt in mehreren anderen visuellen Aufgaben wie Erkennung, Segmentierung und Klassifikation zu fördern.Inspiration für unsere Arbeit fanden wir in der Art und Weise, wie Tiere in freier Wildbahn jagen. Basierend darauf haben wir ein einfaches aber leistungsfähiges Baseline-Modell für COD entwickelt, das als Suchidentifikationsnetzwerk (Search Identification Network, SINet) bezeichnet wird. Ohne zusätzliche Verzierungen übertrifft SINet 12 state-of-the-art-Baseline-Modelle auf allen getesteten Datensätzen und bietet robuste und universelle Architekturen, die als Katalysatoren für zukünftige Forschungen im Bereich der COD dienen können.Zum Schluss präsentieren wir einige interessante Erkenntnisse und betonen mehrere potentielle Anwendungen sowie zukünftige Forschungsrichtungen. Um Forschung in diesem neuen Bereich anzustoßen, stellen wir unseren Code, den Datensatz und eine Online-Demo auf unserer Projektseite zur Verfügung: http://mmcheng.net/cod.