Command Palette
Search for a command to run...
TreeSynth : Synthèse de données diverses à partir de zéro par partitionnement de sous-espace guidé par arbre
Sheng Wang Pengan Chen Jingqi Zhou Qintong Li Jingwei Dong Jiahui Gao Boyang Xue Jiyue Jiang Lingpeng Kong Chuan Wu

Résumé
La personnalisation des modèles exige des jeux de données de haute qualité et diversifiés, mais leur acquisition reste longue et exigeante en ressources humaines. Malgré le grand potentiel des grands modèles linguistiques (LLM) pour la synthèse de données, les approches actuelles sont freinées par des données initiales limitées, des biais inhérents au modèle et des prompts à faible variabilité, ce qui entraîne une diversité insuffisante et des distributions biaisées lors de l’augmentation de l’échelle des données. Pour relever ce défi, nous proposons TREESYNTH, une méthode de synthèse de données guidée par un arbre et basée sur des sous-espaces, inspirée des arbres de décision. Cette approche construit un arbre de partitionnement spatial qui divise de manière récursive l’espace complet de données spécifique à une tâche (c’est-à-dire le nœud racine) en de nombreux sous-espaces atomiques (c’est-à-dire les feuilles) aux attributs mutuellement exclusifs et exhaustifs, garantissant à la fois la distinctivité et la complétude avant de synthétiser des échantillons dans chaque sous-espace atomique. Cette méthode globale de division puis de synthèse permet finalement de regrouper les échantillons issus des sous-espaces pour former un jeu de données complet, évitant efficacement les répétitions et le phénomène de « collapse » de l’espace, et assurant ainsi une diversité optimale dans la synthèse à grande échelle. En outre, l’arbre de partitionnement spatial permet d’attribuer les échantillons aux sous-espaces atomiques, facilitant ainsi le rééquilibrage des jeux de données existants pour obtenir des distributions plus équilibrées et complètes. Des expérimentations étendues sur divers benchmarks démontrent de manière empirique la supériorité de TREESYNTH en termes de diversité des données, de performance du modèle et de scalabilité robuste par rapport à des jeux de données conçus manuellement et à d’autres méthodes de synthèse de données, avec un gain moyen de performance atteignant 10 %. En outre, les améliorations constantes observées avec les jeux de données équilibrés par TREESYNTH mettent en évidence son efficacité pour redistribuer les jeux de données existants afin d’assurer une couverture plus complète et d’induire une amélioration des performances.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.