HyperAI초신경

GAIA 일반 AI 어시스턴트 벤치마크 데이터세트

다운로드 도움말

Meta, HuggingFace, AutoGPT가 2024년에 공동 출시한 GAIA는 지능형 에이전트를 위한 가장 포괄적인 벤치마크입니다. 관련 논문 결과는 다음과 같습니다.GAIA: 일반 AI 보조원을 위한 벤치마크".

GAIA는 다양한 수준의 도구와 자율성을 필요로 하는 명확한 답변이 있는 450개 이상의 복잡한 질문으로 구성되어 있습니다. 따라서 3개 레벨로 나뉘는데, 레벨 1은 매우 뛰어난 LLM으로 정복할 수 있는 반면, 레벨 3은 모델 역량이 크게 향상되었음을 나타냅니다. 각 레벨은 검증을 위한 완전히 공개된 개발 세트와 비공개 답변 및 메타데이터가 포함된 테스트 세트로 나뉩니다.

문제는 metadata.jsonl에 있습니다. 일부 질문에는 같은 폴더에서 찾을 수 있는 추가 파일이 함께 제공되며, 해당 파일의 ID는 file_name 필드에 지정됩니다. 자세한 내용은 다음에서 확인할 수 있습니다.종이에 발표됨.

까다로운 문제의 예는 다음과 같습니다.

2008년 그림 "우즈베키스탄의 자수"에 나온 과일 중 어떤 것이 1949년 10월 여객선의 아침 식사 메뉴에 포함되었으며, 나중에 영화 "마지막 항해"에서 떠다니는 소품으로 사용되었을까요? 그림 속의 과일 배열에 따라 시계 방향으로 12시 방향에서 시작하여 쉼표로 구분된 목록으로 과일을 적어주세요. 각 과일의 복수형을 사용하세요.

이 문제는 여러 가지 어려움을 수반한다는 것을 알 수 있습니다.

  • 제약조건 형식으로 답변하세요.
  • 이미지에서 과일을 읽으려면 다중 모드 기능이 필요합니다.
  • 수집해야 할 정보가 여러 가지 있는데, 그 중 일부는 다른 정보에 따라 달라집니다.
    • 사진 속 과일
    • 영화 '마지막 항해'에서 떠다니는 소품으로 사용된 여객선의 정체
    • 위의 1949년 10월 Ocean Liner 아침 식사 메뉴
  • 위의 내용은 올바른 솔루션 경로가 여러 개의 연쇄 단계를 사용하도록 강제합니다.

이 문제를 해결하려면 높은 수준의 계획 능력과 엄격한 실행이 필요한데, 이 두 영역은 LLM이 다루기 어려워하는 영역입니다.

따라서 이는 지능형 에이전트 시스템을 테스트하는 데 매우 적합한 테스트 세트입니다. GAIA의 공개 순위에 따르면 GPT-4-Turbo의 평균 점수는 7%보다 낮습니다. 가장 우수한 결과를 얻은 제출물은 복잡한 다중 에이전트 시스템을 사용하고 OpenAI의 도구 호출 기능을 활용한 Autogen 기반 솔루션으로, 40%를 달성했습니다.