HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der Bilderkennung durch Abfrage von webskaligen Bild-Text-Daten

Ahmet Iscen Alireza Fathi Cordelia Schmid

Zusammenfassung

Retrieval-augmentierte Modelle gewinnen zunehmend an Beliebtheit für Aufgaben im Bereich des Computersehens, nachdem sie kürzlich in der natürlichen Sprachverarbeitung (NLP) Erfolge erzielt haben. Ziel ist es, die Erkennungsfähigkeiten des Modells zu verbessern, indem ähnliche Beispiele für die visuelle Eingabe aus einer externen Gedächtnismenge abgerufen werden. In dieser Arbeit stellen wir ein auf Aufmerksamkeit basierendes Gedächtnismodul vor, das lernt, die Relevanz jedes abgerufenen Beispiels aus dem Gedächtnis zu bewerten. Im Vergleich zu bestehenden Ansätzen entfernt unsere Methode den Einfluss irrelevanter abgerufener Beispiele und behält ausschließlich jene bei, die für die Eingabeanfrage von Nutzen sind. Zudem untersuchen wir ausführlich verschiedene Ansätze zur Erstellung der Gedächtnisdatenmenge. Unsere Experimente zeigen den Vorteil der Nutzung einer massiv skalierten Gedächtnisdatenmenge mit 1 Milliarde Bild-Text-Paaren und demonstrieren die Leistungsfähigkeit verschiedener Gedächtnisrepräsentationen. Wir evaluieren unsere Methode an drei unterschiedlichen Klassifikationsaufgaben, nämlich der Langschwanz-Recognition, dem Lernen mit verrauschten Etiketten und der Feinklassifikation, und zeigen, dass sie state-of-the-art Genauigkeiten auf den Datensätzen ImageNet-LT, Places-LT und Webvision erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp