Command Palette
Search for a command to run...
OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트
OmniParsingBench는 알리바바가 2026년에 공개한 멀티모달 대규모 모델(MLLM)의 통합 구문 분석 기능을 평가하기 위한 벤치마크 데이터셋입니다. 관련 연구 논문으로는 다음과 같은 것들이 있습니다... 로직-파싱-옴니 기술 보고서이 방법은 기존의 단일 작업 평가의 한계를 극복하고, 인지에서 인식에 이르는 전 과정에 걸쳐 모델의 역량을 체계적으로 평가하는 것을 목표로 하며, 멀티모달 이해, 구조화된 정보 추출, 복잡한 추론 능력 연구 등 다양한 시나리오에서 널리 활용됩니다. 이 데이터셋은 약 5,294개의 샘플로 구성되어 있으며, 6가지 양식(자연 이미지, 그래픽, 문서, 오디오, 자연 비디오, 텍스트 중심 비디오)을 포괄합니다. 또한, 지각(Perc.), 인지(Cog.), 종합(Ovr.)의 세 가지 평가 지표를 제시합니다. 각 데이터셋은 이미지 또는 오디오/비디오 입력과 이에 상응하는 구조화된 구문 분석 작업을 포함합니다.