HyperAIHyperAI

Command Palette

Search for a command to run...

RLAIF-V-데이터셋 대규모 다중 모드 선호도 데이터셋

날짜

2년 전

크기

11.77 GB

조직

OpenBMB

Paper URL

arxiv.org

RLAIF-V 데이터 세트는 다양한 작업과 도메인을 포괄하는 AI가 생성한 다중 모드 선호도 데이터 세트입니다. 이 데이터 세트에는 다중 모드 대규모 언어 모델(MLLM)을 훈련하고 평가하기 위한 44,757개 이상의 고품질 쌍이 포함되어 있습니다. RLAIF-V 데이터 세트는 오픈 소스 대규모 모델을 사용하여 모델 응답의 교란을 해소하는 새로운 접근 방식을 사용하며, 다양한 MLLM의 환각 현상을 줄이기 위해 고품질 피드백 데이터를 제공합니다. 또한 RLAIF-V 데이터 세트는 최초의 엔드투엔드 GPT-4V 수준 MLLM17을 나타내는 MiniCPM-Llama3-V 2.5 모델을 훈련하는 데에도 사용됩니다. RLAIF-V 프로젝트는 연구 커뮤니티에서 코드, 가중치(7B, 12B) 및 데이터를 오픈 소스로 공개하여 사용 및 추가 연구에 활용할 수 있도록 했습니다. RLAIF-V 데이터 세트의 주요 특징은 다음과 같습니다.

  1. 고품질 피드백 데이터: 데이터 세트에 사용된 다양한 MLLM을 통해 환각을 효과적으로 감소시켰습니다.
  2. 오픈소스: 데이터 세트는 완전히 오픈 소스이므로 연구자들은 자유롭게 접근하여 사용할 수 있습니다.
  3. 멀티태스킹 및 멀티도메인: 이 데이터 세트는 광범위한 작업과 도메인을 포괄하여 다양한 선호도 데이터를 제공합니다. RLAIF-V 데이터 세트의 라이선스는 CC BY NC 4.0으로, 비상업적 사용에만 허용되며, 이 데이터 세트를 사용하여 학습한 모델은 연구 목적 이외의 용도로 사용해서는 안 됩니다.
RLAIF-V-Dataset.torrent
시딩 1다운로드 중 0완료됨 184총 다운로드 수 268
  • RLAIF-V-Dataset/
    • README.md
      1.86 KB
    • README.txt
      3.72 KB
      • data/
        • RLAIF-V-Dataset.zip
          11.77 GB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp