vor 2 Monaten

Adaptives Cross-Modales Few-Shot-Lernen

Chen Xing; Negar Rostamzadeh; Boris N. Oreshkin; Pedro O. Pinheiro

Abstract

Metrikbasierte Meta-Lernverfahren wurden erfolgreich auf Few-Shot-Klassifikationsprobleme angewendet. In dieser Arbeit schlagen wir vor, übermodale Informationen zu nutzen, um metrikbasierte Few-Shot-Lernmethoden zu verbessern. Visuelle und semantische Merkmalsräume haben nach Definition unterschiedliche Strukturen. Für bestimmte Konzepte können visuelle Merkmale reichhaltiger und diskriminativer sein als textuelle Merkmale. Bei anderen Konzepten kann das Gegenteil der Fall sein. Darüber hinaus kann in der Bildklassifikation, wenn die Unterstützung durch visuelle Informationen begrenzt ist, semantische Repräsentationen (aus unüberwachten Textkorpora gelernt) starke a priori Wissen und Kontext zur Lernunterstützung bereitstellen. Aufgrund dieser beiden Intuitionen schlagen wir einen Mechanismus vor, der Informationen aus beiden Modalitäten anpassungsfähig kombiniert, abhängig von den neuen Bildkategorien, die gelernt werden sollen. Durch eine Reihe von Experimenten zeigen wir, dass durch diese adaptive Kombination der beiden Modalitäten unser Modell alle getesteten Benchmarks und Few-Shot-Szenarien deutlich besser abschneidet als aktuelle unimodale Few-Shot-Lernmethoden und Modalitätsanpassungsverfahren. Die Experimente zeigen auch, dass unser Modell seinen Fokus effektiv auf die beiden Modalitäten anpassen kann. Die Leistungssteigerung ist besonders groß, wenn die Anzahl der Shots sehr gering ist.