CAILA: Konzeptbewusste intra-layer Adapter für zusammengesetzte Zero-Shot-Lernverfahren

In diesem Artikel untersuchen wir das Problem des compositional zero-shot learning (CZSL), bei dem neue Kombinationen aus Attributen und Objekten anhand bereits vorhandener Konzepte erkannt werden sollen. Kürzlich konzentrieren sich Forscher darauf, große Vision-Language-Pretrained (VLP)-Modelle wie CLIP mit starker Generalisierungsfähigkeit einzusetzen. Allerdings behandeln diese Ansätze das vortrainierte Modell als schwarzes Kästchen und legen den Fokus auf prä- und post-CLIP-Operationen, wodurch die semantische Struktur zwischen den Schichten von CLIP nicht intrinsisch erschlossen wird. Wir schlagen vor, tief in die Architektur einzudringen und in jede Schicht des CLIP-Encoders Adapter – eine parameter-effiziente Technik, die sich bei großen Sprachmodellen als wirksam erwiesen hat – einzufügen. Zudem versehen wir die Adapter mit Konzeptbewusstsein, um spezifische Merkmale für die Konzepte „Objekt“, „Attribut“ und „Komposition“ extrahieren zu können. Wir evaluieren unsere Methode an vier gängigen CZSL-Datensätzen – MIT-States, C-GQA, UT-Zappos und VAW-CZSL – und zeigen, dass sie auf allen Datensätzen eine state-of-the-art-Leistung erzielt.