Label2Label: Ein Sprachmodellierungsrahmen für das Mehrattribut-Lernen

Objekte sind in der Regel mit mehreren Attributen verbunden, und diese Attribute weisen oft hohe Korrelationen auf. Die Modellierung komplexer Beziehungen zwischen Attributen stellt eine große Herausforderung für das Lernen von mehreren Attributen dar. In dieser Arbeit wird ein einfaches, aber generisches Framework namens Label2Label vorgeschlagen, um die komplexen Attributkorrelationen zu nutzen. Label2Label ist der erste Ansatz zur Mehrattributvorhersage aus der Perspektive des Sprachmodellierens. Genauer gesagt behandelt es jedes Attributlabel als ein "Wort", das das Sample beschreibt. Da jedes Sample mit mehreren Attributlabels annotiert ist, bilden diese "Worte" natürlich einen ungeordneten, aber sinnvollen "Satz", der die semantische Information des entsprechenden Samples abbildet. Inspiriert durch den bemerkenswerten Erfolg prätrainierter Sprachmodelle im Bereich der natürlichen Sprachverarbeitung (NLP), führt Label2Label ein bildbedingtes maskiertes Sprachmodell ein, das einige der "Wort"-Tokens aus dem Label-"Satz" zufällig maskiert und versucht, sie basierend auf dem maskierten "Satz" und dem Kontext, der durch die Bildmerkmale vermittelt wird, wiederherzustellen. Unsere Intuition ist, dass die attributbezogenen Beziehungen auf Instanzebene gut erfasst werden, wenn das neuronale Netzwerk die fehlenden Attribute basierend auf dem Kontext und den verbleibenden Attributhinweisen ableiten kann. Label2Label ist konzeptuell einfach und empirisch mächtig. Ohne spezifisches vorangegangenes Wissen oder hochspezialisierte Netzwerkdesigns zu integrieren, erreicht unser Ansatz Stand-of-the-Art-Ergebnisse bei drei verschiedenen Mehrattribut-Lernaufgaben im Vergleich zu stark angepassten domänenspezifischen Methoden. Der Quellcode ist unter https://github.com/Li-Wanhua/Label2Label verfügbar.