Command Palette

Search for a command to run...

다중모달 교과서-6.5M 다중모달 교과서 데이터 세트

Discord 커뮤니티 참여

이 데이터 세트는 Alibaba DAMO Academy에서 2025년에 발표한 다중 모드 교과서 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.2.5년 수업: 시각-언어 사전 훈련을 위한 다중 모드 교과서"는 다중 모드 사전 학습을 강화하고 모델의 인터리브된 시각적 및 텍스트 입력 처리 능력을 확장하는 것을 목표로 합니다.

이 데이터셋은 교육용 비디오에서 추출한 650만 개의 이미지와 8억 개의 텍스트 데이터를 포함합니다. 모든 이미지와 텍스트는 수학, 물리, 화학 등 6개 기본 과목을 다루는 온라인 교육용 비디오(22,000시간 수업)에서 추출되었으며, 이미지-텍스트 정렬을 위한 더욱 일관된 배경 지식과 풍부한 지식을 제공합니다.

튜토리얼 비디오에서 데이터 세트를 구축하는 예

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다중모달 교과서-6.5M 다중모달 교과서 데이터 세트 | 데이터셋 | HyperAI초신경