HyperAI초신경

MMPR 다중 모드 추론 선호도 데이터 세트

날짜

5달 전

크기

29.29 GB

기관

상하이 인공 지능 연구소
복단대학교

발행 주소

github.com

MMPR(Multimodal Preference Dataset)은 상하이 인공지능연구소, 푸단대학교, 난징대학교, 홍콩중문대학교, 청화대학교, 센스타임의 연구팀이 2024년에 공동으로 공개한 대규모 멀티모달 선호도 데이터 세트입니다. 관련 논문 결과는 "혼합 선호도 최적화를 통한 다중 모드 대규모 언어 모델의 추론 능력 향상". 이 데이터 세트에는 명확한 정답이 없는 샘플 75만 개와 명확한 정답이 있는 샘플 250만 개가 포함되어 있습니다. 샘플은 다양성을 보장하기 위해 VQA, 과학, 그래픽, 수학, OCR, 문서 등 다양한 분야를 포괄합니다. 연구진은 데이터 세트를 구축할 때, 특히 일반 VQA 및 문서 영역에서 휴리스틱 규칙의 한계로 인해 위양성/위음성 응답이 발생하지 않도록 특별히 주의를 기울였습니다. 이 데이터 세트는 다중 모드 추론 작업에서 모델의 성능을 향상시키고 학습 중 발생할 수 있는 부정적인 영향을 방지하도록 설계되었습니다.

MMPR의 데이터 예시. 명확한 정답이 있는 지침의 경우, 연구팀은 여러 개의 답을 샘플링하고 정답인 답은 선택 응답으로, 오답인 답은 거부 응답으로 처리하는 정확성 기반 프로세스를 제안했습니다. 연구팀은 명확한 정답이 없는 명령의 경우 DropoutNTP를 사용하여 거부 응답을 생성하는 것을 제안했습니다. 선택 및 거부 응답의 차이점은 이탤릭체로 강조되어 있습니다. 빨간색으로 강조된 부분은 틀린 응답을 나타냅니다.

MMPR-OpenGVLab.torrent
시딩 1다운로드 중 1완료됨 46총 다운로드 횟수 53
  • MMPR-OpenGVLab/
    • README.md
      2.12 KB
    • README.txt
      4.25 KB
      • data/
        • MMPR.zip
          14.63 GB
          • MMPR/
            • README.md
              14.63 GB
            • annotations.zip
              16.03 GB
            • images.zip
              29.29 GB
            • meta.json
              29.29 GB