M³IT: 다중 모드 다국어 명령어 튜닝 데이터 세트
이 데이터 세트는 40개의 데이터 세트로 구성되어 있습니다.여기에는 240만 개의 인스턴스와 400개의 수동으로 작성된 작업 지침이 포함됩니다.시각적인 텍스트 구조로 재구성되었습니다. 이 데이터 세트는 캡션, 시각적 질의응답(VQA), 시각적 조건 생성, 추론, 분류를 포함한 고전적인 시각 언어 작업의 다양한 작업을 수집한 것입니다.
이 데이터 세트는 40개의 데이터 세트로 구성되어 있습니다.여기에는 240만 개의 인스턴스와 400개의 수동으로 작성된 작업 지침이 포함됩니다.시각적인 텍스트 구조로 재구성되었습니다. 이 데이터 세트는 캡션, 시각적 질의응답(VQA), 시각적 조건 생성, 추론, 분류를 포함한 고전적인 시각 언어 작업의 다양한 작업을 수집한 것입니다.