Command Palette

Search for a command to run...

CulturalGround 다국어 문화 시각적 질문 답변 데이터 세트

날짜

3달 전

기관

카네기멜론대학교

논문 URL

2508.07414

라이선스

Apache 2.0

Discord 커뮤니티 참여

CulturalGround는 카네기 멜론 대학의 NeuLab이 2025년에 공개한 문화적 지식 정렬을 위한 다국어 및 다중 모드 시각적 질의응답 데이터 세트입니다. "문화적 지식을 바탕으로 다국어 다중 모드 LLM 구축"이는 틈새 문화적 실체와 자원이 부족한 언어에 대한 다중 모드 대규모 언어 모델의 이해 및 추론 능력을 개선하는 것을 목표로 합니다.

이 데이터 세트는 42개국 39개 언어를 포함하는 2,200만 개의 고품질의 풍부한 문화권별 질문과 답변 쌍을 포함합니다. 각 샘플에는 국가 및 언어별로 구성된 이미지, 질문, 답변이 포함되어 있어 모델 예측을 문화적 실체와 직접적으로 연관시킵니다.

데이터에는 다음이 포함됩니다.

  • 이미지 및 엔터티 메타데이터(국가/언어/엔터티 ID/문화 속성)
  • 시각적 Q&A 샘플: 필터링되지 않은 버전과 필터링된 버전이 모두 포함된 개방형 질문과 객관식/참/거짓 질문
  • 다국어 텍스트: 39개 언어로 된 질문과 답변으로 언어 간 교육 및 평가 지원
데이터 세트 예제

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp