HyperAIHyperAI

Command Palette

Search for a command to run...

Detektorfreie schwach überwachte Lokalisierung durch Trennung

Zusammenfassung

Heutzutage gibt es eine Fülle von Daten, die Bilder sowie umgebenden, freiformigen Text enthalten, der schwach mit diesen Bildern korreliert. Weakly Supervised Phrase-Grounding (WSG) befasst sich mit der Aufgabe, aus diesen Daten zu lernen, beliebige Textphrasen in Bildern zu lokalisieren (bzw. zu „grounden“), ohne zusätzliche Annotationen zu benötigen. Allerdings gehen die meisten aktuellen State-of-the-Art-Methoden für WSG davon aus, dass ein vortrainierter Objektdetektor verfügbar ist, auf dessen Basis die Regionen of Interest (ROIs) für die Lokalisierung generiert werden. In dieser Arbeit konzentrieren wir uns auf die Aufgabe des Detector-Free WSG (DF-WSG), um WSG ohne Abhängigkeit von einem vortrainierten Detektor zu lösen. Wir lernen direkt aus Bild- und zugehörigen freiformigen Textpaaren, wodurch wir potenziell Vorteile bei Kategorien erzielen können, die vom Detektor nicht unterstützt werden. Der zentrale Ansatz unserer vorgeschlagenen Methode Grounding by Separation (GbS) besteht darin, durch zufällige Alpha-Blending beliebiger Bildpaare „Text-zu-Bildregionen“-Zuordnungen zu synthetisieren und die zugehörigen Texte des Paares als Bedingung zu nutzen, um über ein Segmentierungsnetzwerk die Alpha-Karte aus dem gemischten Bild zurückzugewinnen. Im Testzeitpunkt kann nun die Suchphrase als Bedingung für ein nicht gemischtes Testbild verwendet werden, wodurch das Testbild als Zusammensetzung einer Region interpretiert wird, die der Phrase entspricht, und einer komplementären Region. Mit diesem Ansatz zeigen wir eine signifikante Genauigkeitssteigerung von bis zu 8,5 % gegenüber früheren State-of-the-Art-Methoden im Bereich DF-WSG auf einer Reihe von Benchmarks wie Flickr30K, Visual Genome und ReferIt. Zudem erzielen wir eine signifikante ergänzende Verbesserung (über 7 %) gegenüber detektorbasierten Ansätzen für WSG.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp