HyperAIHyperAI
vor 9 Tagen

BatchFormer: Lernen, Stichprobenebeziehungen zu erkunden, um robuste Repräsentationslernen zu ermöglichen

Zhi Hou, Baosheng Yu, Dacheng Tao
BatchFormer: Lernen, Stichprobenebeziehungen zu erkunden, um robuste Repräsentationslernen zu ermöglichen
Abstract

Trotz des Erfolgs tiefer neuronaler Netze bestehen weiterhin zahlreiche Herausforderungen im Bereich des tiefschichtigen Repräsentationslernens aufgrund von Datenknappheitsproblemen wie Datenungleichgewicht, unerwartete Verteilungen und Domänenverschiebung. Um diese Probleme anzugehen, wurden verschiedene Methoden entwickelt, die die Beziehungen zwischen den Samples auf eine triviale Weise erforschen (d. h. entweder aus der Perspektive der Eingabe oder der Verlustfunktion), wodurch jedoch die interne Struktur tiefer neuronaler Netze für das Lernen auf Basis von Sample-Beziehungen ungenutzt bleibt. Inspiriert durch diese Lücke schlagen wir vor, tiefen neuronalen Netzen selbst die Fähigkeit zu verleihen, die Beziehungen zwischen den Samples aus jeder Mini-Batch zu lernen. Konkret führen wir ein Batch-Transformer-Modul, das sogenannte BatchFormer, ein, das anschließend in die Batch-Dimension jeder Mini-Batch integriert wird, um während des Trainings implizit die Beziehungen zwischen den Samples zu erkunden. Auf diese Weise ermöglicht die vorgeschlagene Methode eine Zusammenarbeit zwischen verschiedenen Samples – beispielsweise können Samples aus den häufigen Klassen (head classes) ebenfalls zum Lernen der seltenen Klassen (tail classes) bei der langen Schwanz-Erkennung beitragen. Darüber hinaus verringern wir die Diskrepanz zwischen Training und Testphase, indem wir den Klassifikator sowohl mit als auch ohne BatchFormer während des Trainings gemeinsam nutzen, sodass der BatchFormer im Testphase entfernt werden kann. Wir führen umfangreiche Experimente auf über zehn Datensätzen durch, und das vorgeschlagene Verfahren erzielt signifikante Verbesserungen bei verschiedenen Anwendungen mit Datenknappheit, ohne zusätzliche Komplexitäten, einschließlich der Aufgaben der langen Schwanz-Erkennung, zusammengesetzten Zero-Shot-Lernens, Domänenverallgemeinerung und kontrastiven Lernens. Der Quellcode wird öffentlich unter https://github.com/zhihou7/BatchFormer bereitgestellt.

BatchFormer: Lernen, Stichprobenebeziehungen zu erkunden, um robuste Repräsentationslernen zu ermöglichen | Neueste Forschungsarbeiten | HyperAI