Command Palette

Search for a command to run...

14일 전

Wasm: 구조화된 아랍어 혼합 다중모달 코퍼스를 구축하기 위한 파이프라인

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Wasm: 구조화된 아랍어 혼합 다중모달 코퍼스를 구축하기 위한 파이프라인

초록

대규모 언어 모델(Large Language Models, LLMs)과 대규모 다중모달 모델(Large Multimodal Models, LMMs)의 성능은 사전 훈련 데이터셋의 품질과 규모에 크게 의존한다. 최근 연구에 따르면, 이미지와 텍스트가 혼합된 자연스러운 문서를 기반으로 훈련된 대규모 다중모달 모델은 이미지-텍스트 쌍만을 사용해 훈련된 모델보다 다양한 벤치마크에서 우수한 성능을 보이며, 고도로 사전 훈련된 모델을 활용해 의미적 일치, 이미지-시퀀스 일관성, 텍스트의 흐름을 강화한다. 그러나 아랍어에 대해서는 문서 구조를 유지하는 고품질의 다중모달 데이터셋이 부족하여 발전이 제한되어 왔다. 본 논문에서는 Common Crawl 데이터셋을 처리하기 위한 새로운 파이프라인인 Wasm을 제안하며, 독자적으로 마크다운(Markdown) 형식의 출력을 제공하는 새로운 아랍어 다중모달 데이터셋을 구축한다. 기존의 아랍어 코퍼스가 텍스트 추출에만 초점을 맞추는 반면, 본 연구는 웹 콘텐츠의 구조적 완전성을 유지하면서도 텍스트 전용 및 다중모달 사전 훈련 모두에 유연하게 대응할 수 있도록 설계되었다. 또한, 주요 기존 데이터셋에 사용된 파이프라인과의 종합적인 비교 분석을 통해 필터링 전략의 공통점과 본 연구의 구체적인 설계 선택의 타당성을 제시한다. 향후 연구를 지원하기 위해, 대표적인 데이터 덤프와 아랍어용 다중모달 처리 파이프라인을 공개한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Wasm: 구조화된 아랍어 혼합 다중모달 코퍼스를 구축하기 위한 파이프라인 | 연구 논문 | HyperAI초신경