MIT 연구팀, 대형 언어 모델의 위치 편향 원인 규명
MIT 연구진이 발견한 대형 언어 모델의 위치 편향 문제 대형 언어 모델(LLM)은 문서나 대화의 앞부분과 끝부분에 정보를 과도하게 부각시키는 경향이 있으며, 중간 부분은 상대적으로 소홀히 다룬다는 연구 결과가 발표되었습니다. 이 "위치 편향" 현상은 변호사가 30페이지 분량의 증언서에서 특정 구절을 찾아낼 때, LLM이 해당 구절이 초기 페이지나 마지막 페이지에 있는 경우 더 잘 찾는다는 것을 의미합니다. MIT 연구팀은 이러한 현상을 조사하기 위해 이론적 프레임워크를 개발했습니다. 이 프레임워크는 LLM의 핵심을 이루는 머신러닝 아키텍처를 통해 정보가 어떻게 흐르는지를 연구하는 데 사용되었습니다. 연구 결과, 입력 데이터를 처리하는 방식을 제어하는 특정 설계 결정이 위치 편향을 일으킬 수 있다는 것이 밝혀졌습니다. 특히, 입력 단어 내에서 정보가 어떻게 확산되는지에 영향을 미치는 모델 아키텍처가 위치 편향을 발생시키거나 강화할 수 있음을 발견했습니다. 실험을 통해 연구진은 모델 아키텍처와 학습 데이터가 모두 위치 편향에 기여한다는 것을 확인했습니다. 또한, 이론적 분석 결과 인과 마스킹(causal masking) 기법이 모델에 처음 입력된 부분에 대한 편향을 내재화시킨다는 점이 드러났습니다. 이는 문장의 앞부분 단어가 문장의 의미에 상대적으로 덜 중요하더라도, 모델이 그 부분에 더 집중하도록 만들기 때문입니다. MIT 대학원생인 우신이(Wu Xinyi)는 "이러한 모델은 검은 상자(black box)처럼 작동하기 때문에, 사용자는 위치 편향이 모델의 일관성에 영향을 줄 수 있다는 사실을 모르고 있을 수 있다. 사용자는 필요에 따라 문서를 입력하고 모델이 잘 작동할 것이라고 기대하지만, 모델의 내부 메커니즘을 더 잘 이해함으로써 이러한 제한 사항을 해결하여 모델을 개선할 수 있다"라고 말했습니다. 모델의 크기가 커지면, 주의 메커니즘(attention mechanism)의 층이 추가되면서 이 편향은 더욱 강화됩니다. 초기 입력 부분이 모델의 추론 과정에서 더 자주 사용되기 때문입니다. 위치 인코딩(positional encodings)을 사용하여 단어 간의 결합을 강화하면 위치 편향을 완화할 수 있지만, 주의 메커니즘의 층이 많아질수록 효과가 약해질 수 있습니다. 또한, 학습 데이터의 편향도 위치 편향의 원인이 될 수 있습니다. "데이터가 특정 방식으로 편향되어 있다면, 모델링 선택을 조정하는 것뿐만 아니라 모델을 세부 조정(finetuning)하여 해결해야 한다"라고 우신이는 강조했습니다. 실험 결과, 정답이 순서의 중간에 위치할수록 정보 검색 정확도가 낮아지는 "중간에서 잃어버리는 현상"이 관찰되었습니다. 정답이 순서의 시작부분에 있을 때 가장 성능이 좋았으며, 중앙으로 가까워질수록 성능이 저하되었다가 끝부분 근처에서 약간 회복되는 U자형 패턴을 보였습니다. 연구진은 "이론과 실험을 병행하여, 당시 명확하지 않았던 모델 설계 선택의 결과를 살펴볼 수 있었다. 고차적인 응용 분야에서 모델을 사용하려면 언제 작동하고, 언제 작동하지 않는지, 그리고 이유를 알아야 한다"라고 말했습니다. 미래에는 연구진이 위치 인코딩의 효과를 더욱 탐구하고, 위치 편향을 특정 응용 분야에서 전략적으로 활용할 방법을 연구할 계획입니다. 우신이의 공저자로는 MIT 박사 후 연구원인 왕이페이(Wang Yifei)와 전기공학 및 컴퓨터과학(Electrical Engineering and Computer Science, EECS) 부교수이며 IDSS와 CSAIL의 멤버인 스테파니 제겔카(Stefanie Jegelka), 그리고 시민환경공학부 교수이자 IDSS 코어 구성원이고 LIDS의 책임 연구원인 알리 자다바바이(Ali Jadbabaie)가 참여했습니다. 이 연구는 국제 기계 학습 회의에서 발표될 예정입니다. 이 연구는 미 해군 연구소, 국립과학재단, 그리고 알렉산더 폰 훔볼트 교수직의 지원을 받았습니다. 전체적으로, 이 연구는 트랜스포머 모델의 주의 메커니즘 내에서 오랫동안 알려지지 않았던 특성을 설명하고, 이를 수학적으로 명확하게 분석하여 실제 시스템의 깊은 부분까지 통찰력을 제공합니다. 이는 위치 편향을 이해하고 이를 개선하는 데 중요한 단초를 제공하며, 앞으로의 모델 설계와 개선에 큰 도움이 될 것으로 기대됩니다. 스탠퍼드 대학 컴퓨테이션 시장 설계 센터의 디렉터이자 교수인 아민 사베리(Amin Saberi)는 "이 연구는 트랜스포머 모델의 핵심 주의 메커니즘에 대한 이론적인 시각을 제공하며, 인과 마스킹 기법이 모델을 순서의 초기 부분으로 편향시키는 경향이 있다는 점을 명확히 보여준다"고 평가했습니다.