vor 17 Tagen

DUET: Kreuzmodale semantische Verankerung für kontrastives zero-shot Lernen

Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Wen Zhang, Yin Fang, Jeff Z. Pan, Huajun Chen

Abstract

Zero-shot Learning (ZSL) zielt darauf ab, Klassen vorherzusagen, die während des Trainings niemals als Beispiele erschienen sind. Eine der effektivsten und am häufigsten verwendeten semantischen Informationsquellen für die ZSL von Bildern sind Attribute, also Annotationen, die visuelle Merkmale auf Klassen-Ebene beschreiben. Allerdings versagen derzeitige Methoden oft darin, feine visuelle Unterschiede zwischen Bildern zu unterscheiden, was nicht nur auf die Knappheit feinabgestimmter Annotationen zurückzuführen ist, sondern auch auf die Ungleichverteilung und Co-Occurrenz von Attributen. In diesem Paper präsentieren wir eine transformerbasierte end-to-end-ZSL-Methode namens DUET, die latente semantische Kenntnisse aus vortrainierten Sprachmodellen (PLMs) über einen selbstüberwachten multimodalen Lernansatz integriert. Konkret (1) entwickeln wir ein cross-modales semantisches Grundlagen-Netzwerk, um die Fähigkeit des Modells zu untersuchen, semantische Attribute aus Bildern zu entkoppeln; (2) wenden wir eine attributbasierte kontrastive Lernstrategie an, um die Fähigkeit des Modells zur Unterscheidung feinabgestimmter visueller Merkmale gegenüber Attribut-Co-Occurrenz und -Ungleichgewicht weiter zu stärken; (3) schlagen wir eine Multi-Task-Lernstrategie vor, um mehrere Modellziele gleichzeitig zu berücksichtigen. Wir stellen fest, dass unsere DUET auf drei Standard-ZSL-Benchmarks sowie einem Benchmark mit Wissensgraphen state-of-the-art Ergebnisse erzielt. Die einzelnen Komponenten sind wirksam, und die Vorhersagen sind interpretierbar.