HyperAIHyperAI
vor 2 Monaten

Vom Datenüberschuss zur Datencuration: Ein Filter-WoRA-Paradigma für effiziente textbasierte PersonenSuche

Sun, Jintao ; Fei, Hao ; Zheng, Zhedong ; Ding, Gangyi
Vom Datenüberschuss zur Datencuration: Ein Filter-WoRA-Paradigma für
effiziente textbasierte PersonenSuche
Abstract

Im Bereich der textbasierten Personensuche hat sich die Datenerzeugung als vorherrschende Praxis etabliert, um Bedenken bezüglich des Datenschutzes und der mühsamen manuellen Annotation zu adressieren. Obwohl die Anzahl der synthetischen Daten theoretisch unendlich sein kann, bleibt das wissenschaftliche Problem bestehen, wie viel generierte Daten optimal für die nachfolgende Modelltrainierung dienen. Wir beobachten, dass nur ein Teil dieser in den erstellten Datensätzen enthaltenen Daten eine entscheidende Rolle spielt. Deshalb stellen wir ein neues Paradigma namens Filtering-WoRA vor, das einen Filteralgorithmus zur Identifizierung dieser wichtigen Teildaten und eine WoRA (gewichtete Low-Rank-Anpassung) Lernstrategie für minimalistisches Feinjustieren enthält.Der Filteralgorithmus basiert auf der Relevanz zwischen verschiedenen Modalitäten, um viele grobe Matching-Paare zu entfernen. Da die Datenmenge abnimmt, ist es nicht mehr erforderlich, das gesamte Modell zu feinjustieren. Daher schlagen wir eine WoRA-Lernstrategie vor, um effizient einen minimalen Teil der Modellparameter zu aktualisieren. WoRA vereinfacht den Lernprozess und ermöglicht eine erhöhte Effizienz bei der Wissensextraktion aus weniger, aber dennoch leistungsfähigen Dateninstanzen.Umfangreiche Experimente bestätigen die Effektivität des Vortrainings, bei dem unser Modell auf anspruchsvollen realweltlichen Benchmarks fortschrittliche und effiziente Suchleistungen erzielt. Bemerkenswert ist dabei, dass wir auf dem CUHK-PEDES-Datensatz einen wettbewerbsfähigen mAP von 67,02 % erreicht haben, während gleichzeitig die Trainierungszeit des Modells um 19,82 % reduziert wurde.