HyperAIHyperAI
vor 2 Monaten

Asymmetrisches Tri-Training für die unüberwachte Domänenanpassung

Kuniaki Saito; Yoshitaka Ushiku; Tatsuya Harada
Asymmetrisches Tri-Training für die unüberwachte Domänenanpassung
Abstract

Tiefenschufmodelle, die auf einer großen Anzahl von etikettierten Stichproben trainiert wurden, verbessern die Genauigkeit vieler Aufgaben. Es ist wichtig, solche Modelle auf verschiedene Domänen anzuwenden, da das Sammeln von vielen etikettierten Stichproben in verschiedenen Domänen kostspielig ist. Bei der unüberwachten Domänenanpassung (Domain Adaptation) muss ein Klassifikator trainiert werden, der gut in der Ziel-Domäne funktioniert, wenn er mit etikettierten Quellstichproben und nicht-etikettierten Zielstichproben versorgt wird. Obwohl viele Methoden darauf abzielen, die Verteilungen von Quell- und Zielstichproben zu angleichen, kann eine einfache Angleichung der Verteilungen die Genauigkeit in der Ziel-Domäne nicht garantieren. Um diskriminative Darstellungen für die Ziel-Domäne zu lernen, gehen wir davon aus, dass künstliches Etikettieren von Zielstichproben zu einer guten Darstellung führen kann. Tri-Training nutzt drei Klassifikatoren gleichermaßen, um Pseudo-Etiketten für nicht-etikettierte Stichproben zu generieren, aber diese Methode geht nicht davon aus, dass Stichproben aus einer anderen Domäne etikettiert werden. In dieser Arbeit schlagen wir eine asymmetrische Tri-Training-Methode für die unüberwachte Domänenanpassung vor, bei der wir Pseudo-Etiketten für nicht-etikettierte Stichproben zuweisen und neuronale Netze so trainieren, als wären es echte Etiketten. In unserem Ansatz verwenden wir drei Netzwerke asymmetrisch. Unter asymmetrisch verstehen wir dabei, dass zwei Netzwerke verwendet werden, um nicht-etikettierte Zielstichproben zu beschriften, während ein Netzwerk durch diese Stichproben trainiert wird, um diskriminative Darstellungen für die Ziel-Domäne zu erlernen. Wir evaluieren unsere Methode anhand von Datensätzen zur Ziffernerkennung und Sentimentanalyse. Unsere vorgeschlagene Methode erreicht den aktuellen Stand der Technik (state-of-the-art) bei den Benchmark-Datensätzen zur Ziffernerkennung im Kontext der Domänenanpassung.