TreeSynth: Synthetische Erzeugung vielfältiger Daten von Grund auf durch baumgeleitete Unterraumpartitionierung
Sheng Wang Pengan Chen Jingqi Zhou Qintong Li Jingwei Dong Jiahui Gao Boyang Xue Jiyue Jiang Lingpeng Kong Chuan Wu

Abstract
Die Anpassung von Modellen erfordert hochwertige und vielfältige Datensätze, deren Beschaffung jedoch nach wie vor zeitaufwendig und arbeitsintensiv ist. Trotz des erheblichen Potenzials großer Sprachmodelle (LLMs) für die Datensynthese sind aktuelle Ansätze durch begrenzte Ausgangsdaten, Modellverzerrungen und geringe Variabilität der Eingabeprompts eingeschränkt, was bei steigender Datenskala zu begrenzter Vielfalt und verzerrten Verteilungen führt. Um dieser Herausforderung zu begegnen, stellen wir TREESYNTH vor – einen datenbasierten Ansatz zur Synthese von Daten, der sich an Entscheidungsbäumen orientiert und auf einer Unterraumstrukturierung basiert. TREESYNTH konstruiert einen räumlichen Partitionierungsbaum, um den gesamten, auf eine spezifische Aufgabe zugeschnittenen Datenspace (d. h. die Wurzel) rekursiv in zahlreiche atomare Unterräume (d. h. Blätter) zu unterteilen, die sich gegenseitig ausschließen und gemeinsam den gesamten Raum erschöpfen. Dadurch wird sichergestellt, dass die Unterräume sowohl unterscheidbar als auch umfassend sind, bevor innerhalb jedes atomaren Unterraums Datenpunkte synthetisiert werden. Dieser global vorgenommene Ansatz der Aufteilung und anschließenden Synthese sammelt schließlich die Unterraumproben zu einem umfassenden Datensatz, wodurch Wiederholungen und Raumnähe („space collapse“) effektiv vermieden werden und eine hohe Vielfalt bei der Synthese großer Datensätze gewährleistet ist. Zudem ermöglicht der räumliche Partitionierungsbaum die Zuordnung von Proben zu atomaren Unterräumen, was die Neuausbalancierung bestehender Datensätze für eine ausgewogenere und umfassendere Verteilung erlaubt. Experimentell zeigen umfangreiche Tests an verschiedenen Benchmarks konsistent die überlegene Datenvielfalt, die bessere Modellleistung und die robuste Skalierbarkeit von TREESYNTH im Vergleich sowohl zu manuell erstellten Datensätzen als auch zu etablierten Methoden der Datensynthese, wobei durchschnittlich ein Leistungszuwachs von bis zu 10 % erreicht wird. Darüber hinaus unterstreichen die konsistenten Verbesserungen bei TREESYNTH-ausgeglichenen Datensätzen die Wirksamkeit des Ansatzes zur Neustrukturierung bestehender Datensätze für eine umfassendere Abdeckung und eine daraus resultierende Leistungssteigerung. Der Quellcode ist unter folgendem Link verfügbar: https://example.com
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.