HyperAIHyperAI
il y a 2 mois

De la surabondance de données à la curation des données : Un paradigme de filtrage-WoRA pour une recherche textuelle efficace de personnes

Sun, Jintao ; Fei, Hao ; Zheng, Zhedong ; Ding, Gangyi
De la surabondance de données à la curation des données : Un paradigme de filtrage-WoRA pour une recherche textuelle efficace de personnes
Résumé

Dans les efforts de recherche de personnes basés sur le texte, la génération de données est apparue comme une pratique prédominante, répondant aux préoccupations relatives à la préservation de la vie privée et à la tâche ardue de l'annotation manuelle. Bien que le nombre de données synthétisées puisse être théoriquement infini, le dilemme scientifique persiste quant à savoir combien de données générées alimentent idéalement l'entraînement ultérieur des modèles. Nous constatons qu'uniquement un sous-ensemble des données dans ces ensembles de données construits joue un rôle décisif. Par conséquent, nous introduisons un nouveau paradigme appelé Filtrage-WoRA, qui comprend un algorithme de filtrage pour identifier ce sous-ensemble crucial et une stratégie d'apprentissage WoRA (Weighted Low-Rank Adaptation) pour un ajustement fin léger. L'algorithme de filtrage repose sur la pertinence inter-modale afin d'éliminer les nombreux paires de synthèse mal appariées. À mesure que le nombre de données diminue, il n'est pas nécessaire d'ajuster finement l'ensemble du modèle. Ainsi, nous proposons une stratégie d'apprentissage WoRA pour mettre à jour efficacement une portion minimale des paramètres du modèle. WoRA rationalise le processus d'apprentissage, permettant une extraction plus efficace des connaissances à partir d'un nombre réduit mais puissant d'instances de données. Des expérimentations approfondies valident l'efficacité du pré entraînement, où notre modèle atteint des performances avancées et efficaces en recherche sur des benchmarks réels difficiles. Notamment, sur le jeu de données CUHK-PEDES, nous avons obtenu un mAP compétitif de 67,02 % tout en réduisant le temps d'entraînement du modèle de 19,82 %.