HyperAI초신경
Back to Headlines

카르파티, 미라벨 데이터 활용한 혁신적 의사 라벨링 방안 제시

2일 전

최근 미국 버지니아 대학의 신총 교수와 연구팀은 대형 언어 모델이 다중 샘플 학습에서 더 우수한 성능을 발휘하도록 설계된 새로운 메커니즘인 MAPLE(Many-Shot Adaptive Pseudo-LabEling)를 제안했습니다. 이 방법은 특히 실제 응용에서 자주 발생하는 적은 양의 레이블이 붙은 데이터와 많은 양의 레이블이 없는 데이터가 있는 상황에 적합합니다. 전통적인 대형 언어 모델 응용에서는 많은 양의 인공 레이블링이 필요한데, 이는 비싸고 시간이 많이 걸립니다. 연구팀은 이러한 '레이블이 없는' 데이터를 어떻게 효과적으로 활용할 수 있을지를 고민하며 두 가지 핵심 기술을 개발했습니다. 첫째, '가짜 레이블 샘플 선택 방법'입니다. 연구팀은 그래프를 구축하여 레이블이 붙은 데이터와 레이블이 없는 데이터를 연결하고, 태스크에 가장 '영향력'이 큰 미레이블 샘플을 선택한 후 대형 언어 모델을 사용하여 '가짜 레이블'을 부여합니다. 이렇게 하면 모델은 이러한 대표적인 샘플로부터 더 많은 정보를 배울 수 있습니다. 둘째, '자적응 샘플 선택 전략'입니다. 각 테스트 문제에 대해 그 특성을 고려하여 레이블이 붙은 샘플과 가짜 레이블 샘플 중에서 가장 관련성이 높은 몇 개의 샘플을 지능적으로 선택합니다. 이는 고정된 템플릿을 사용하는 것보다 모델의 정확성과 일반화 능력을 더욱 높일 수 있습니다. 연구팀은 다양한 실험을 통해 이 방법이 비싼 레이블링 데이터에 대한 의존성을 줄이며, 여러 실제 태스크에서 우수한 성능을 보임을 입증했습니다. 논문 평가자는 이번 연구가 대형 언어 모델이 저레이블 환경에서의 응용 가능성을 제공했다고 평가했습니다. 이 성과는 텍스트를 지능적으로 처리해야 하지만 많은 인공 레이블링 데이터가 부족한 상황에서 다수의 가짜 레이블링 데이터를 생성하는 데 활용될 수 있습니다. 예를 들어, 먼저 고객 서비스와 질문-답변 시스템에 사용될 수 있습니다. 많은 기업들이 많은 양의 역사적인 대화 데이터를 가지고 있지만, 질문 유형에 대한 레이블링이 되어 있지 않은 경우가 많습니다. 이번 연구 방법은 이러한 미레이블 데이터를 활용하여 대형 언어 모델이 사용자의 질문을 더 잘 이해하고 답변할 수 있도록 돕습니다. 둘째, 의료, 금융 등 전문 분야의 지능형 도우미에 사용될 수 있습니다. 이러한 분야에서는 레이블링 비용이 매우 높지만, 이번 연구 방법은 소량의 전문가 레이블링 데이터와 많은 미레이블 사례를 결합하여 더 정확한 질문-답변 시스템이나 요약 시스템을 구축할 수 있게 합니다. 셋째, 교육 분야에서도 활용할 수 있습니다. 예를 들어, 문제 설명이나 연습 문제 피드백을 자동으로 생성하는 데 사용될 수 있습니다. 많은 질문이나 학생들의 답변이 미레이블 상태이지만, 이번 연구 방법은 모델이 더 나은 설명을 제공하도록 돕습니다. 넷째, 저자원 언어나 소규모 언어의 AI 응용에서도 사용될 수 있습니다. 레이블링 데이터가 부족한 언어에 대해서도 가짜 레이블 메커니즘을 통해 미레이블 자원을 발굴하여 해당 언어의 AI 시스템 구현을 가속화할 수 있습니다. 이 결과는 데이터가 부족한 실제 환경에서 대형 언어 모델이 '소량으로 다수를 이끌' 수 있도록 도와, AI가 더 많은 산업과 더 많은 상황에서 활용될 수 있게 합니다. 위의 연구는 인-컨텍스트 학습(ICL, In-context Learning)의 발전에 크게 기여합니다. ICL은 몇 개의 예시를 통해 모델이 태스크를 수행하는 방법을 배우도록 하는 기법으로, 다시 학습할 필요가 없습니다. Google 연구진은 2024년의 논문에서 예시의 수를 늘리면 ICL 성능이 향상됨을 발견하고 이를 '다중 샘플 인-컨텍스트 학습'이라 명명했습니다. 연구팀은 이를 활용하기 위해 많은 양의 태스크 관련 레이블링 데이터가 필요하다는 점을 알았습니다. 그러나 이러한 데이터를 레이블링하는 비용이 높아 실제로는 구하기 어렵다는 점에서 출발했습니다. 이에 연구팀은 대형 언어 모델의 능력을 최대한 활용하여 가짜 레이블링 데이터를 생성하는 방법을 모색했습니다. 특히, 소량의 레이블링 데이터를 이용하여 미레이블 데이터를 선택하고 가짜 레이블을 부여하는 방법에 초점을 맞추었습니다. 연구 과정에서는 두 가지 주요 문제를 해결했습니다. 첫째, 초기에는 미레이블 데이터와 소량의 레이블링 데이터만을 사용하여 다중 샘플 입력을 만들어 내는 방식을 시도했으나, 모델 성능이 불안정하게 나타났습니다. 이를 해결하기 위해 가짜 레이블 메커니즘을 활용한 방법으로 방향을 변경하였으며, 이로 인해 성능 향상이 더 안정적이고 통제 가능해졌습니다. 둘째, 가짜 레이블 샘플을 선택하는 방법에 대한 영감을 얻었습니다. 한 학생이 이전에 그래프 구조에서 영향력 관련 이론을 연구한 적이 있었는데, 이를 현재 연구에 적용할 수 있다는 것을 발견하였습니다. 학생들은 이 이론을 수정하고 실험을 진행한 결과, 좋은 성과를 거두었습니다. 이러한 과정은 학생들에게 연구가 이상적인 생각과 실제 제약 사이에서 균형을 맞춰야 함을 깨닫게 해주었으며, 연구에 대한 경외심과 열정을 고취시켰습니다. 최종적으로, 이 연구의 결과는 ICML(International Conference on Machine Learning) 42회에서 발표되었습니다. 후속 연구에서는 첫째, 가짜 레이블의 품질과 견고성을 더욱 향상시키는 것이 목표입니다. 현재 방법은 모델 추론에 도움이 되는 미레이블 샘플을 선택하고 가짜 레이블을 부여할 수 있지만, 일부 오류 또는 불안정성이 여전히 존재합니다. 특히 일부 태스크에서는 더 많은 가짜 레이블 데이터를 사용할수록 성능이 저하되는 현상이 관찰되었습니다. 이는 가짜 레이블이 노이즈를 도입하기 때문인 것으로 추정됩니다. 이를 해결하기 위해 불확실성 추정, 앙상블 모델, 또는 대형 언어 모델의 자체 피드백 메커니즘 등을 이용하여 어떤 가짜 레이블이 더 신뢰할 수 있는지를 판단하는 방법을 탐구할 계획입니다. 둘째, 이 메커니즘을 다른 태스크나 분야로 확장하는 것이 목표입니다. 실제-world 태스크들은 서로 다른 데이터 분포를 가집니다. 예를 들어, 금융, 의료, 교육 등 분야에서 소량의 레이블링 데이터를 사용하고 다른 분야의 미레이블 데이터를 결합하여 효과적인 다중 샘플 학습을 실현한다면, 대형 언어 모델의 실제 적용 능력이 크게 향상될 것입니다. 이를 위해서는 태스크 간에 영향력 그래프 전략과 샘플 선택 전략을 이전하는 방법을 고민해야 합니다. 이 연구는 대형 언어 모델이 저레이블 환경에서의 효율적인 활용을 가능케 하며, AI 기술의 다양한 산업 및 응용 분야에서의 확장을 촉진할 것으로 기대됩니다. 특히, 데이터 부족 문제를 해결하는 데 있어 획기적인 해결책을 제시함으로써, AI 기술의 보편적인 활용을 한층 더 끌어올릴 것으로 보입니다.

Related Links