Command Palette
Search for a command to run...
CulturalGround 다국어 문화 시각적 질문 답변 데이터 세트
CulturalGround는 카네기 멜론 대학의 NeuLab이 2025년에 공개한 문화적 지식 정렬을 위한 다국어 및 다중 모드 시각적 질의응답 데이터 세트입니다. "문화적 지식을 바탕으로 다국어 다중 모드 LLM 구축"이는 틈새 문화적 실체와 자원이 부족한 언어에 대한 다중 모드 대규모 언어 모델의 이해 및 추론 능력을 개선하는 것을 목표로 합니다.
이 데이터 세트는 42개국 39개 언어를 포함하는 2,200만 개의 고품질의 풍부한 문화권별 질문과 답변 쌍을 포함합니다. 각 샘플에는 국가 및 언어별로 구성된 이미지, 질문, 답변이 포함되어 있어 모델 예측을 문화적 실체와 직접적으로 연관시킵니다.
데이터에는 다음이 포함됩니다.
- 이미지 및 엔터티 메타데이터(국가/언어/엔터티 ID/문화 속성)
- 시각적 Q&A 샘플: 필터링되지 않은 버전과 필터링된 버전이 모두 포함된 개방형 질문과 객관식/참/거짓 질문
- 다국어 텍스트: 39개 언어로 된 질문과 답변으로 언어 간 교육 및 평가 지원
