Halbüberwachte Domänenverallgemeinerung für Objekterkennung durch sprachgesteuerte Merkmalsausrichtung

Bestehende Methoden zur Domänenanpassung (Domain Adaptation, DA) und Domänenverallgemeinerung (Domain Generalization, DG) im Objekterkennungsfeld erzwingen eine Merkmalsausrichtung im visuellen Raum, stoßen jedoch auf Herausforderungen wie die Variabilität des Objektanscheins und die Komplexität von Szenen, die es schwierig machen, zwischen Objekten zu unterscheiden und eine genaue Erkennung zu erreichen. In dieser Arbeit sind wir die ersten, die das Problem der semi-überwachten Domänenverallgemeinerung angehen, indem wir visuelle-sprachliche Vortrainingstechniken erforschen und durch den Sprachraum eine Merkmalsausrichtung erzwingen. Wir verwenden ein neuartiges Cross-Domain Descriptive Multi-Scale Learning (CDDMSL), das darauf abzielt, die Übereinstimmung zwischen Beschreibungen eines Bildes zu maximieren, die mit verschiedenen domänenspezifischen Eigenschaften im Einbettungsraum präsentiert werden. CDDMSL übertrifft bestehende Methoden deutlich und erreicht Verbesserungen um 11,7 % und 7,5 % in DG- und DA-Einstellungen, jeweils. Eine umfassende Analyse sowie Abschweifungsstudien bestätigen die Effektivität unserer Methode und positionieren CDDMSL als vielversprechenden Ansatz für die Domänenverallgemeinerung in Objekterkennungsaufgaben.