Command Palette
Search for a command to run...
GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결
GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결
Amita Kamath Kai-Wei Chang Ranjay Krishna Luke Zettlemoyer Yushi Hu Marjan Ghazvininejad
초록
텍스트에서 이미지 생성(Text-to-Image, T2I) 모델 평가를 자동화하는 것은 도전적인 과제이다. 정확도를 평가하기 위해 판단 모델(judge model)을 사용해야 하며, 테스트 프롬프트는 현재의 T2I 모델에게 도전적이면서도 판단 모델에게는 쉬워야 한다. 우리는 이러한 제약 조건을 만족시키는 것이 시간이 지남에 따라 벤치마크의 편향(benchmark drift)을 초래할 수 있다고 주장한다. 즉, 정적인 벤치마크 판단 모델이 새로운 모델의 능력 변화에 따라 뒤처지게 되는 현상이다. 우리는 이와 같은 편향이 현재 가장 인기 있는 T2I 벤치마크 중 하나인 GenEval에 있어 중요한 문제임을 보여준다. GenEval은 출시 당시 인간의 판단과 잘 일치하였지만, 시간이 지남에 따라 인간 판단에서 크게 벗어나게 되었으며, 현재 모델에 대해 최대 17.7%의 절대 오차를 초래하고 있다. 이러한 수준의 편향은 GenEval이 이미 오랫동안 포화 상태에 이르렀음을 강하게 시사하며, 대규모 인간 평가 연구를 통해 이를 확인하였다. 이 벤치마크 공백을 보완하기 위해 우리는 기본 시각 개념의 커버리지를 개선하고 구성성(compositionality) 수준을 더 높인 새로운 벤치마크인 GenEval 2를 제안한다. 이는 현재의 T2I 모델에게 더 큰 도전이 되는 것으로 입증되었다. 또한 GenEval 2를 위한 평가 방법으로 Soft-TIFA를 도입하였으며, 이는 시각적 기본 요소들에 대한 판단을 조합하는 방식으로, 인간 판단과 더 잘 일치함을 보이고, VQAScore와 같은 종합적 판단 모델보다 인간 판단과의 일치도가 시간이 지나도 더 오래 유지될 가능성이 높다고 주장한다. 우리가 GenEval 2가 수년간 강력한 벤치마크로 활용되기를 기대하지만, 벤치마크 편향을 완전히 피할 수는 없으며, 본 연구는 T2I 및 관련 자동화 모델 평가 벤치마크에 대해 지속적인 감사와 개선의 중요성을 강조한다.