Command Palette

Search for a command to run...

13일 전

TreeSynth: 트리 가이드 서브스페이스 분할을 통한 스크래치 기반 다양한 데이터 합성

Sheng Wang Pengan Chen Jingqi Zhou Qintong Li Jingwei Dong Jiahui Gao Boyang Xue Jiyue Jiang Lingpeng Kong Chuan Wu

TreeSynth: 트리 가이드 서브스페이스 분할을 통한 스크래치 기반 다양한 데이터 합성

초록

모델 맞춤화를 위해서는 고품질이고 다양한 데이터셋이 필요하지만, 이러한 데이터를 확보하는 과정은 여전히 시간과 인력이 많이 소요되는 과제이다. 대규모 언어 모델(LLM)이 데이터 생성에 큰 잠재력을 지니고 있음에도 불구하고, 현재의 접근 방식은 제한된 시드 데이터, 모델 편향, 그리고 낮은 다양성을 가진 프롬프트에 의해 제약받고 있으며, 데이터 규모가 증가함에 따라 다양성은 제한되고 편향된 분포가 발생하는 문제가 존재한다. 이러한 문제를 해결하기 위해, 의사결정 트리의 아이디어에서 영감을 얻어, 트리 기반 하위공간 지도 데이터 생성 방법인 TREESYNTH를 제안한다. TREESYNTH는 특정 작업에 맞춘 전체 데이터 공간(즉, 루트 노드)을 서로 배타적이고 포괄적인 속성을 갖는 다수의 원자 하위공간(즉, 리프 노드)으로 반복적으로 분할하는 공간 분할 트리를 구축함으로써, 각 원자 하위공간 내에서 샘플을 생성하기 전에 독창성과 포괄성을 동시에 보장한다. 이 글로벌 분할-생성 방식은 각 하위공간에서 생성된 샘플을 종합적으로 수집함으로써, 반복과 공간 붕괴를 효과적으로 회피하고 대규모 데이터 생성의 다양성을 보장한다. 더불어, 공간 분할 트리는 원자 하위공간으로의 샘플 할당을 가능하게 하여 기존 데이터셋의 재균형화를 통해 더 균형 잡히고 포괄적인 분포를 실현할 수 있다. 실증적으로 다양한 벤치마크에서 수행된 광범위한 실험 결과는 TREESYNTH가 인간이 수작업으로 구성한 데이터셋과 동료 데이터 생성 기법 대비 뛰어난 데이터 다양성, 모델 성능, 그리고 강력한 확장성을 보임을 일관되게 입증하며, 평균 성능 향상률이 10%에 달한다. 또한 TREESYNTH-균형화된 데이터셋의 지속적인 성능 향상은 기존 데이터셋을 보다 포괄적인 커버리지로 재분배하고 성능 향상을 유도하는 데 있어 본 방법의 효과적인 적용 가능성을 시사한다. 코드는 다음 URL에서 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
TreeSynth: 트리 가이드 서브스페이스 분할을 통한 스크래치 기반 다양한 데이터 합성 | 연구 논문 | HyperAI초신경