HyperAIHyperAI

Command Palette

Search for a command to run...

Entkopplte Box-Vorschläge und Featurisierung mit ultrafein granularen semantischen Etiketten verbessern die Bildbeschreibung und visuelle Fragebeantwortung

Soravit Changpinyo Bo Pang Piyush Sharma Radu Soricut

Zusammenfassung

Die Objekterkennung spielt eine zentrale Rolle bei aktuellen Ansätzen für visuelle Sprachaufgaben wie Bildbeschreibung (Image Captioning) und visuelle Fragebeantwortung (Visual Question Answering). Allerdings beruhen gängige Modelle wie Faster R-CNN auf einem kostenintensiven Prozess der Annotation von Ground-Truth-Werten sowohl für die Bounding Boxes als auch für deren zugehörige semantische Labels, was sie weniger geeignet für die Nutzung als Grundbaustein für Transfer Learning macht. In diesem Paper untersuchen wir den Einfluss der Entkopplung von Box-Vorschlägen und Merkmalsextraktion für nachgeschaltete Aufgaben. Der entscheidende Einblick besteht darin, dass dies ermöglicht, eine große Menge bisher für Standard-Objekterkennungsbenchmarks nicht nutzbarer annotierter Daten zu nutzen. Empirisch zeigen wir, dass dies zu effektivem Transfer Learning führt und die Leistung von Bildbeschreibungs- und visuellen Fragebeantwortungsmodellen verbessert, wie anhand öffentlich verfügbaren Benchmarks nachgewiesen wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Entkopplte Box-Vorschläge und Featurisierung mit ultrafein granularen semantischen Etiketten verbessern die Bildbeschreibung und visuelle Fragebeantwortung | Paper | HyperAI