HyperAIHyperAI
vor 2 Monaten

Tiefere Darstellungen feingranularer visueller Beschreibungen lernen

Scott Reed; Zeynep Akata; Bernt Schiele; Honglak Lee
Tiefere Darstellungen feingranularer visueller Beschreibungen lernen
Abstract

Zustandsderkunst-Methoden für die zero-shot-Bilderkennung formulieren das Lernen als ein gemeinsames Einbettungsproblem von Bildern und zusätzlichen Informationen. In diesen Formulierungen sind derzeit die besten Ergänzungen zu visuellen Merkmalen Attribute: manuell kodierte Vektoren, die gemeinsame Charakteristika zwischen Kategorien beschreiben. Trotz guter Leistung haben Attribute Einschränkungen: (1) feingranulare Erkennung erfordert eine entsprechend größere Anzahl von Attributen, und (2) Attribute bieten keine natürliche Sprachschnittstelle. Wir schlagen vor, diese Einschränkungen durch das Training von neuronalen Sprachmodellen aus dem Grund auf zu überwinden; d.h. ohne Vorabtraining und nur mit Wörtern und Buchstaben als Eingabe. Unsere vorgeschlagenen Modelle werden von Anfang bis Ende trainiert, um sich den feingranularen und kategorie-spezifischen Inhalten von Bildern anzupassen. Die natürliche Sprache bietet einen flexiblen und kompakten Weg, nur die wesentlichen visuellen Aspekte zur Unterscheidung von Kategorien zu kodieren. Durch das Training auf rohem Text kann unser Modell auch auf rohem Text inferenzieren, was Menschen eine vertraute Methode sowohl für Annotation als auch für Retrieval bietet. Unser Modell erzielt starke Ergebnisse bei der zero-shot-textbasierten Bildretrieval und übertreffen die attributbasierte Zustandsderkunst bei der zero-shot-Klassifikation auf dem Caltech UCSD Birds 200-2011 Datensatz signifikant.