HyperAI초신경
Back to Headlines

AI 벤치마크 챗봇 아레나, 대기업에 편중된 혜택 논란

한 달 전

CoHERE, 스탠퍼드, MIT, 그리고 Ai2 연구진들이 공동으로 발표한 최근 논문에서, 유명한 챗봇 경쟁 플랫폼인 Chatbot Arena를 운영하는 LM Arena가 특정 인공지능(AI) 기업들에게 선호적인 대우를 제공했다는 주장이 제기되었습니다. 이 논문은 LM Arena가 일부 주요 AI 기업들, 예를 들어 메타(Meta), 오픈AI(OpenAI), 구글(Google), 그리고 아마존(Amazon)에게 비공개 테스트 기회를 제공하여 최저 점수의 모델들을 공개하지 않았다는 내용을 포함하고 있습니다. 이로 인해 이러한 기업들은 플랫폼의 리더보드에서 상위에 위치할 수 있었으나, 이러한 특혜는 모든 기업들에게 제공되지 않았다고 합니다. 이 논문의 공동 저자인 CoHERE의 AI 연구 부사장 사라 후커(Sara Hooker)는 TechCrunch와의 인터뷰에서 "비공개 테스트 기회는 몇몇 기업들만 알려졌으며, 일부 기업들이 받은 비공개 테스트 횟수가 다른 기업들보다 월등히 많았다"고 말했습니다. 이러한 과정은 "게임화"라고 표현되었습니다. Chatbot Arena는 2023년 UC 버클리에서 시작된 학술 연구 프로젝트로, AI 기업들이 자사 모델들의 성능을 비교하기 위해 주로 사용되는 벤치마크입니다. 이 플랫폼은 두 개의 AI 모델이 서로 대결하는 방식으로 작동하며, 사용자들이 더 나은 답변을 선택하도록 요청합니다. 시간이 지남에 따라 모델들의 점수가 누적되어 리더보드 순위가 결정됩니다. 논문의 저자들은 2024년 11월부터 5개월 동안 280만 번 이상의 Chatbot Arena 경쟁 결과를 분석하였습니다. 그 결과, LM Arena가 특정 AI 기업들에게 더 많은 데이터 수집 기회를 제공하였다는 증거를 발견했습니다. 예를 들어, 메타는 2024년 1월부터 3월까지 Llama 4 출시 전 27개의 모델 변형을 비공개로 테스트할 수 있었지만, 출시 시에는 단 하나의 최상위 모델만 공개했다고 합니다. 이러한 비공개 테스트를 통해 추가 데이터를 얻은 기업들은 Arena Hard, LM Arena가 유지하는 또 다른 벤치마크에서 최대 112%의 성능 향상을 보였습니다. 그러나 LM Arena는 X 포스트에서 Arena Hard 성능과 Chatbot Arena 성능 사이의 직접적인 연관성이 없다고 반박했습니다. 후커 부사장은 어떤 방식으로 특정 AI 기업들이 우선적으로 접근했는지 명확하지 않지만, LM Arena는 투명성을 높여야 한다고 강조했습니다. LM Arena는 X 포스트에서 논문의 일부 주장이 현실을 반영하지 않는다고 반박하며, 비주요 연구소의 모델들이 논문에서 제시된 것보다 더 많이 경쟁에 참여했다는 새로운 블로그 포스트를 언급했습니다. TechCrunch는 논문에서 언급된 메타, 구글, 오픈AI, 아마존 등에 연락하여 의견을 청취했지만, 즉각적인 답변은 없었습니다. 이 논문에서는 LM Arena에 여러 가지 개선점을 제안하고 있습니다. 예를 들어, 비공개 테스트 횟수의 명확하고 투명한 한도를 설정하고, 이런 테스트의 결과를 공개해야 한다는 것입니다. 또한, 모든 모델이 동일한 비율로 경쟁에 참여할 수 있도록 샘플링 비율을 조정할 필요가 있다고 말합니다. LM Arena는 이 중 샘플링 알고리즘 조정에 대해 공개적으로 긍정적으로 반응하며, 새로운 알고리즘을 개발할 계획이라고 밝혔습니다. 이 논문은 메타가 Llama 4 모델 출시 전 Chatbot Arena 벤치마크를 조작한 사실이 밝혀진 지 몇 주 후에 발표되었습니다. 메타는 대화력을 최적화한 Llama 4 모델을 출시 전 비공개로 테스트하고, 이를 통해 높은 점수를 얻었지만, 실제 출시된 모델은 성능이 크게 떨어졌습니다. 당시 LM Arena는 메타가 벤치마킹 과정에서 더 투명하게 행동했어야 한다고 지적했습니다. 지난달 LM Arena는 자사의 회사를 설립하고 투자자들로부터 자금을 조달할 계획임을 발표하였습니다. 이 논문은 이러한 사설 벤치마크 조직의 신뢰성과 기업 영향력이 평가 과정에 미치는 영향에 대한 의심을 증폭시키고 있습니다. 산업 전문가들은 이 논문이 AI 벤치마킹의 투명성과 공정성을 재고토록 하는 중요한 역할을 할 것으로 평가합니다. CoHERE는 2019년 창립된 AI 연구 및 개발 회사로, 자연어 처리(Natural Language Processing, NLP) 분야에서 혁신적인 기술을 개발하고 있습니다. 이번 논문은 CoHERE가 AI 산업의 공정한 경쟁 환경을 만들기 위한 노력의 일환으로 볼 수 있습니다.

Related Links