날짜

일 년 전

Paper URL

라이선스

Apache 2.0

태그

AutoCaption 데이터셋은 Tjunlp Lab에서 2025년에 발표한 비디오 자막 벤치마크 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.몬테카를로 트리 탐색을 통한 비디오 자막에 대한 다중 모달 대규모 언어 모델 평가"는 비디오 자막 생성 분야에서 다중 모드 대규모 언어 모델 연구를 촉진하는 것을 목표로 합니다.

데이터 세트 구조:

데이터 세트에는 총 11,184개의 샘플이 있는 2개의 하위 세트가 포함되어 있습니다.

sft_data: 자막 모델을 위한 지도 미세 조정(지도 미세 조정 데이터의 경우 9,419개 샘플)
mcts_vcb: MCTS에서 생성된 캡션과 키포인트를 사용하여 평가됨(MCTS-VCB 벤치마크 평가를 위한 1,765개 샘플)

소환

@misc{yu2025evaluatingmultimodallargelanguage, 제목={몬테카를로 트리 탐색을 통한 비디오 캡션 생성에 대한 멀티모달 대규모 언어 모델 평가} 저자={Linhao Yu, Xinguang Ji, Yahui Liu, Fanheng Kong, Chenxi Sun, Jingyuan Zhang, Hongzhi Zhang, VW, Fuzheng Zhang, Deyi Xiong}, 연도={2025}, eprint={2506.11155}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.11155}, }

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

Discord에서 논의하기

날짜

일 년 전

Paper URL

arxiv.org

라이선스

Apache 2.0

태그

텍스트 생성

데이터 세트 구조:

데이터 세트에는 총 11,184개의 샘플이 있는 2개의 하위 세트가 포함되어 있습니다.

sft_data: 자막 모델을 위한 지도 미세 조정(지도 미세 조정 데이터의 경우 9,419개 샘플)
mcts_vcb: MCTS에서 생성된 캡션과 키포인트를 사용하여 평가됨(MCTS-VCB 벤치마크 평가를 위한 1,765개 샘플)

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

자동 캡션 비디오 캡션 벤치마크 데이터 세트

데이터 세트 구조:

소환

AI로 AI 구축

HyperAI Newsletters

Command Palette

자동 캡션 비디오 캡션 벤치마크 데이터 세트

데이터 세트 구조:

소환

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

SAM 3D 아티스트 객체 3D 객체 재구성 데이터 세트

FigureBench 과학 일러스트레이션 생성 벤치마크 데이터 세트

ChartNet 차트를 이용한 다중 모달 데이터셋 이해

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

BRIGHT 재난 건물 평가 데이터 세트

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

AI로 AI 구축

HyperAI Newsletters

Command Palette

자동 캡션 비디오 캡션 벤치마크 데이터 세트

데이터 세트 구조:

소환

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

SAM 3D 아티스트 객체 3D 객체 재구성 데이터 세트

FigureBench 과학 일러스트레이션 생성 벤치마크 데이터 세트

ChartNet 차트를 이용한 다중 모달 데이터셋 이해

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

BRIGHT 재난 건물 평가 데이터 세트

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

AI로 AI 구축

HyperAI Newsletters

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

SAM 3D 아티스트 객체 3D 객체 재구성 데이터 세트

FigureBench 과학 일러스트레이션 생성 벤치마크 데이터 세트

ChartNet 차트를 이용한 다중 모달 데이터셋 이해

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

BRIGHT 재난 건물 평가 데이터 세트

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

SAM 3D 아티스트 객체 3D 객체 재구성 데이터 세트

FigureBench 과학 일러스트레이션 생성 벤치마크 데이터 세트

ChartNet 차트를 이용한 다중 모달 데이터셋 이해

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋