HyperAIHyperAI
vor 11 Tagen

Detektorfreie schwach überwachte Lokalisierung durch Trennung

Assaf Arbelle, Sivan Doveh, Amit Alfassy, Joseph Shtok, Guy Lev, Eli Schwartz, Hilde Kuehne, Hila Barak Levi, Prasanna Sattigeri, Rameswar Panda, Chun-Fu Chen, Alex Bronstein, Kate Saenko, Shimon Ullman, Raja Giryes, Rogerio Feris, Leonid Karlinsky
Detektorfreie schwach überwachte Lokalisierung durch Trennung
Abstract

Heutzutage gibt es eine Fülle von Daten, die Bilder sowie umgebenden, freiformigen Text enthalten, der schwach mit diesen Bildern korreliert. Weakly Supervised Phrase-Grounding (WSG) befasst sich mit der Aufgabe, aus diesen Daten zu lernen, beliebige Textphrasen in Bildern zu lokalisieren (bzw. zu „grounden“), ohne zusätzliche Annotationen zu benötigen. Allerdings gehen die meisten aktuellen State-of-the-Art-Methoden für WSG davon aus, dass ein vortrainierter Objektdetektor verfügbar ist, auf dessen Basis die Regionen of Interest (ROIs) für die Lokalisierung generiert werden. In dieser Arbeit konzentrieren wir uns auf die Aufgabe des Detector-Free WSG (DF-WSG), um WSG ohne Abhängigkeit von einem vortrainierten Detektor zu lösen. Wir lernen direkt aus Bild- und zugehörigen freiformigen Textpaaren, wodurch wir potenziell Vorteile bei Kategorien erzielen können, die vom Detektor nicht unterstützt werden. Der zentrale Ansatz unserer vorgeschlagenen Methode Grounding by Separation (GbS) besteht darin, durch zufällige Alpha-Blending beliebiger Bildpaare „Text-zu-Bildregionen“-Zuordnungen zu synthetisieren und die zugehörigen Texte des Paares als Bedingung zu nutzen, um über ein Segmentierungsnetzwerk die Alpha-Karte aus dem gemischten Bild zurückzugewinnen. Im Testzeitpunkt kann nun die Suchphrase als Bedingung für ein nicht gemischtes Testbild verwendet werden, wodurch das Testbild als Zusammensetzung einer Region interpretiert wird, die der Phrase entspricht, und einer komplementären Region. Mit diesem Ansatz zeigen wir eine signifikante Genauigkeitssteigerung von bis zu 8,5 % gegenüber früheren State-of-the-Art-Methoden im Bereich DF-WSG auf einer Reihe von Benchmarks wie Flickr30K, Visual Genome und ReferIt. Zudem erzielen wir eine signifikante ergänzende Verbesserung (über 7 %) gegenüber detektorbasierten Ansätzen für WSG.

Detektorfreie schwach überwachte Lokalisierung durch Trennung | Neueste Forschungsarbeiten | HyperAI