Command Palette

Search for a command to run...

2달 전

SmolDocling: 엔드투엔드 다중모달 문서 변환을 위한 초소형 비전-언어 모델

SmolDocling: 엔드투엔드 다중모달 문서 변환을 위한 초소형 비전-언어 모델

초록

우리는 엔드투엔드 문서 변환을 목표로 한 초소형 비전-언어 모델인 SmolDocling을 소개한다. 본 모델은 DocTags라 불리는 새로운 유니버설 마크업 포맷을 생성함으로써, 위치 정보를 포함한 전체 페이지의 모든 요소를 포괄적으로 처리한다. 기존의 대규모 기초 모델에 의존하거나, 여러 전문 모델로 구성된 수작업 파이프라인에 의존하는 앙상블 솔루션과 달리, SmolDocling은 파라미터 수 2억 5천6백만 개의 비전-언어 모델 내에서 문서 요소의 콘텐츠, 구조, 공간적 위치를 정확하게 포착하는 엔드투엔드 변환을 제공한다. SmolDocling은 비즈니스 문서, 학술 논문, 기술 보고서, 특허, 양식 등 다양한 문서 유형에서 코드 목록, 표, 수식, 차트, 목록 등 문서 특징을 정확히 재현하는 데 뛰어난 성능을 보이며, 기존에 주로 관찰되던 과학 논문 중심의 범위를 크게 넘어서고 있다. 또한, 차트, 표, 수식, 코드 인식을 위한 새로운 공개 데이터셋을 기여한다. 실험 결과에 따르면, SmolDocling은 크기가 최대 27배 큰 다른 비전-언어 모델과 경쟁할 수 있으며, 동시에 계산 자원 요구량을 크게 감소시킨다. 현재 모델은 이미 공개되어 있으며, 데이터셋은 곧 공개될 예정이다.

코드 저장소

docling-project/docling
GitHub에서 언급됨
DS4SD/docling
pytorch
GitHub에서 언급됨

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
SmolDocling: 엔드투엔드 다중모달 문서 변환을 위한 초소형 비전-언어 모델 | 연구 논문 | HyperAI초신경