HyperAIHyperAI
vor 9 Tagen

Verbesserung der Bilderkennung durch Abfrage von webskaligen Bild-Text-Daten

Ahmet Iscen, Alireza Fathi, Cordelia Schmid
Verbesserung der Bilderkennung durch Abfrage von webskaligen Bild-Text-Daten
Abstract

Retrieval-augmentierte Modelle gewinnen zunehmend an Beliebtheit für Aufgaben im Bereich des Computersehens, nachdem sie kürzlich in der natürlichen Sprachverarbeitung (NLP) Erfolge erzielt haben. Ziel ist es, die Erkennungsfähigkeiten des Modells zu verbessern, indem ähnliche Beispiele für die visuelle Eingabe aus einer externen Gedächtnismenge abgerufen werden. In dieser Arbeit stellen wir ein auf Aufmerksamkeit basierendes Gedächtnismodul vor, das lernt, die Relevanz jedes abgerufenen Beispiels aus dem Gedächtnis zu bewerten. Im Vergleich zu bestehenden Ansätzen entfernt unsere Methode den Einfluss irrelevanter abgerufener Beispiele und behält ausschließlich jene bei, die für die Eingabeanfrage von Nutzen sind. Zudem untersuchen wir ausführlich verschiedene Ansätze zur Erstellung der Gedächtnisdatenmenge. Unsere Experimente zeigen den Vorteil der Nutzung einer massiv skalierten Gedächtnisdatenmenge mit 1 Milliarde Bild-Text-Paaren und demonstrieren die Leistungsfähigkeit verschiedener Gedächtnisrepräsentationen. Wir evaluieren unsere Methode an drei unterschiedlichen Klassifikationsaufgaben, nämlich der Langschwanz-Recognition, dem Lernen mit verrauschten Etiketten und der Feinklassifikation, und zeigen, dass sie state-of-the-art Genauigkeiten auf den Datensätzen ImageNet-LT, Places-LT und Webvision erreicht.

Verbesserung der Bilderkennung durch Abfrage von webskaligen Bild-Text-Daten | Neueste Forschungsarbeiten | HyperAI