HyperAI초신경
Back to Headlines

사카나 AI, 텍스트로 태스크 특화 LLM 어댑터 생성하는 T2L 소개

24일 전

Sakana AI가 텍스트-투-로라(T2L, Text-to-LoRA)를 발표하여, 태스크에 대한 텍스트 설명을 기반으로 특화된 LLM(Large Language Model) 어댑터를 즉시 생성하는 하이퍼네트워크를 소개한다. 트랜스포머 모델은 자연어 이해, 번역, 추론 등 다양한 분야에서 AI 시스템이 작업을 수행하는 방식에 큰 영향을 미쳤다. 이 대규모 모델들은 특히 LLM들이 크기와 복잡성을 증가시키면서 다양한 도메인에 걸친 광범위한 능력을 갖게 되었지만, 새로운 전문화된 작업에 적용하는 것은 여전히 복잡한 과정이다. 각 새 애플리케이션은 일반적으로 세심한 데이터셋 선택, 수시간의 미세 조정(fine-tuning), 그리고 높은 수준의 컴퓨팅 파워가 필요하다. 이러한 모델들은 지식의 강력한 기반을 제공하지만, 최소 데이터로 새로운 도메인을 처리하는 유연성에는 한계가 있다. 연구자들은 AI를 인간 같은 적응력으로 더욱 가까이 가져오는 것을 목표로 하며, 이를 위해 이러한 모델들이 매개변수를 재훈련하지 않고도 동작을 수정할 수 있는 더 효율적인 방법에 초점을 맞추고 있다. 새로운 작업에 LLM을 맞춤화하는 난제 기초 모델을 고유한 애플리케이션에 적응시키는 주요 어려움은 비용과 시간이 많이 드는 훈련 사이클을 반복해야 한다는 점이다. 대부분의 현재 솔루션은 각 작업별로 새로운 어댑터를 생성하는 데 의존하며, 이러한 어댑터는 매번 처음부터 만들어져야 한다. 하나의 애플리케이션에서 얻은 이점이 다른 애플리케이션으로 전달되지 않는 경우가 많아 이 적응 과정은 시간 소모적이고 확장성이 부족하다. 또한, 특정 데이터셋에서 모델을 조정하는 것은 하이퍼파라미터 선택의 정확성에 크게 의존하며, 올바른 설정을 찾지 못하면 성능이 저하될 수 있다. 적응이 성공적일지라도 일반적으로 많은 수의 고립된 작업별 구성 요소가 생성되며, 이들을 통합하거나 재사용하기 쉽지 않다. 로라(LoRA) 기술의 소개 이러한 제한을 해결하기 위해 연구자들은 로라(LoRA, Low-Rank Adaptation) 기술을 채택했다. 로라는 전체 모델이 아닌 몇 가지 매개변수만 변경하여 작동하는 기법으로, 동결된 LLM의 특정 레이어에 저순위 행렬(low-rank matrices)을 주입하여 기본 가중치를 그대로 유지하면서 작업별로 특화할 수 있다. 이 방법은 전체 미세 조정(fine-tuning)보다 훈련 매개변수의 수를 줄여 효율성을 높인다. 그러나 각 작업마다 새로운 로라 어댑터를 처음부터 훈련해야 하는 문제는 여전히 존재한다. 최근 발전은 이러한 어댑터를 더 압축하거나 추론 중에 여러 어댑터를 결합하는 데 중점을 두었지만, 여전히 사전 훈련에 크게 의존하며 동적으로 새로운 어댑터를 생성할 수 없다. 텍스트-투-로라(T2L)의 소개: 작업 설명에서 즉시 어댑터 생성 Sakana AI 연구팀은 이러한 제한을 극복하기 위해 텍스트-투-로라(T2L)를 개발했다. T2L은 작업의 텍스트 설명을 사용해 작업별 로라 어댑터를 즉시 생성하는 하이퍼네트워크로, 작업 설명을 해석하고 필요한 어댑터를 생성하는 데 추가적인 훈련이 필요하지 않다. 이 시스템은 다양한 도메인을 포함하는 사전 존재하는 로라 어댑터 라이브러리에서 학습하며, GSM8K, Arc-challenge, BoolQ 등을 포함한 다양한 작업에서 사용된다. T2L은 작업 설명을 자연어로 받아 벡터 형태로 인코딩하고, 이를 학습된 레이어 및 모듈 임베딩과 결합해 작업 기능을 위한 저순위 A와 B 행렬을 생성한다. T2L 아키텍처는 모듈별 및 레이어별 임베딩을 사용해 생성 프로세스를 안내한다. 테스트된 세 가지 아키텍처 변형은 55백만, 34백만, 5백만 매개변수를 가진 대형, 중형, 소형 버전이다. 각 모델의 크기에 관계없이, T2L은 어댑터 기능을 위한 필요한 저순위 행렬을 생성할 수 있다. 훈련은 479개의 작업을 포함하는 Super Natural Instructions 데이터셋을 사용했으며, 각 작업은 자연어로 설명되고 벡터 형태로 인코딩되었다. 이 과정을 통해 T2L은 수백 개의 수작업 로라 어댑터를 대체하고, 훨씬 작은 계산 자원으로 일관된 결과를 생성한다. T2L의 벤치마크 성능과 확장성 벤치마크 테스트에서 T2L은 Arc-easy와 GSM8K에서 작업별 로라 어댑터와 동일하거나 더 나은 성능을 보였다. 예를 들어, Arc-easy에서 T2L의 정확도는 76.6%로 가장 잘 조정된 수작업 어댑터와 맞먹었다. BoolQ에서는 89.9%의 정확도를 달성해 원래 어댑터를 약간 우회했다. 더욱 어려운 벤치마크인 PIQA와 Winogrande에서도 과대적합이 성능을 저하시키는 경우에도 불구하고, T2L은 수작업으로 훈련된 어댑터보다 좋은 결과를 보였다. 이 성능 향상은 하이퍼네트워크 훈련에 내재된 손실 압축(lossy compression) 때문으로 보이며, 이는 일종의 정규화(regularization) 역할을 한다. 훈련 데이터셋의 수가 16개에서 479개로 증가함에 따라 제로샷(zero-shot) 환경에서의 성능이 크게 향상되어 T2L이 훈련 중에 더 넓은 노출을 받을수록 일반화 능력이 향상됨을 보여주었다. 연구의 주요 결론 즉시 적응: T2L은 자연어 설명만으로 LLM을 즉시 특화할 수 있다. 제로샷 일반화: 훈련 중에 본 적 없는 작업에도 일반화를 지원한다. 다양한 아키텍처: 55백만, 34백만, 5백만 매개변수를 가진 세 가지 T2L 변형을 테스트했다. 다양한 벤치마크: ArcE, BoolQ, GSM8K, Hellaswag, PIQA, MBPP 등을 포함한 벤치마크에서 검증되었다. 성능: ArcE에서 76.6%, BoolQ에서 89.9%, Hellaswag에서 92.6%의 정확도를 달성하며, 여러 작업에서 수작업으로 훈련된 로라 어댑터의 성능을 맞추거나 초월했다. 데이터셋: 479개의 작업을 포함하는 Super Natural Instructions 데이터셋을 사용해 훈련되었다. 임베딩 모델: gte-large-en-v1.5 모델을 사용해 작업 임베딩을 생성한다. 타겟 매개변수: 로라 어댑터는 주로 어텐션 블록의 쿼리와 값 투영(query and value projections)을 대상으로 하며, 총 3.4백만 매개변수를 타겟한다. 압축에 대한 견고성: 재구성 손실(reconstruction loss)이 높아도 성능이 일관되게 유지되어 압축에 대한 강인성을 보여준다. 이 연구는 모델 적응의 유연성과 효율성에 있어 중요한 진전을 보여준다. 반복적이고 자원을 많이 소비하는 절차에 의존하지 않고, 자연어 자체를 제어 메커니즘으로 활용하여 모델을 특화할 수 있다. 이 능력은 LLM을 새로운 도메인에 적응시키는 데 필요한 시간과 비용을 크게 줄이는 역할을 한다. 또한, 충분한 사전 어댑터가 훈련되면 미래의 모델은 평범한 영어 설명으로 몇 초 안에 어떤 작업에도 적응할 가능성이 있다는 점을 시사한다. 하이퍼네트워크를 사용해 동적으로 어댑터를 구축하는 방식은 모델 특화에 필요한 저장 공간을 줄여 실시간 환경에서의 활용성을 높인다. 산업 전문가들은 T2L이 모델 적응의 새로운 패러다임을 제시하며, 특히 제로샷 학습과 빠른 적응성을 통해 AI 시스템의 효율성을 크게 향상시킬 것으로 평가하고 있다. Sakana AI는 이 기술을 통해 AI의 접근성을 높이고, 다양한 분야에서의 활용을 촉진할 계획이다. 이 기술은 AI 연구의 중요한 발전을 나타내며, 앞으로의 연구 방향을 제시하는 역할을 할 것으로 기대된다.

Related Links