Command Palette

Search for a command to run...

POINTS-Reader: 엔드투엔드 증류 없는 아키텍처를 갖춘 가벼운 문서 비전 언어 모델

1. 튜토리얼 소개

짓다
특허

POINTS-Reader는 텐센트, 상하이 교통대학교, 칭화대학교가 2025년 8월 공동 출시한 문서 이미지-텍스트 변환을 위해 설계된 경량 비전 언어 모델(VLM)입니다. POINTS-Reader는 매개변수 크기를 추구하거나 교사 모델 "증류"에 의존하지 않습니다. 대신, 2단계 자체 진화 프레임워크를 사용하여 표, 수식, 다중 열 레이아웃을 포함한 복잡한 중국어 및 영어 문서에 대한 고정밀 종단 간 인식을 달성하는 동시에 최소한의 구조만 유지합니다. 관련 논문은 "POINTS-Reader: 문서 변환을 위한 비전-언어 모델의 증류 없는 적응". 이 논문은 EMNLP 2025에 채택되었으며, 본 컨퍼런스에서 발표될 예정입니다.

이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다.

2. 효과 표시

라텍스 포뮬러가 포함된 단일 컬럼

예제 1

표가 있는 단일 열

예제 2

라텍스 공식을 사용한 다중 열

예제 3

표가 있는 다중 열

예제 4

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

1. 추출된 콘텐츠

구체적인 매개변수:

  • 쿼리 입력: 텍스트 요구 사항을 입력하세요.
  • 이미지 확대 계수: 처리 전 이미지 크기를 늘립니다. 작은 텍스트의 OCR을 향상시킬 수 있습니다. 기본값: 1.0 (변경 없음).
  • 최대 새 토큰: 생성된 텍스트의 최대 길이 제한으로, 출력 콘텐츠의 단어 수에 대한 상한을 제어합니다.
  • Top-p(핵 샘플링): 출력 다양성을 제어하기 위해 샘플링을 위해 누적 확률 p로 최소 단어 집합을 선택하는 핵 샘플링 매개변수입니다.
  • Top-k: 확률이 가장 높은 k개의 후보 단어에서 샘플을 추출합니다. 값이 클수록 출력이 더 무작위적이고, 값이 작을수록 출력이 더 확실합니다.
  • 온도: 생성된 텍스트의 무작위성을 제어합니다. 값이 높을수록 더 무작위적이고 다양한 출력이 생성되고, 값이 낮을수록 더 명확하고 보수적인 출력이 생성됩니다.
  • 반복 페널티: 1.0보다 큰 값을 설정하면 중복 콘텐츠 생성이 줄어듭니다. 값이 클수록 페널티가 커집니다.
  • PDF 내보내기 설정:
    • 글꼴 크기: PDF의 텍스트 글꼴 크기로, 내보낸 문서의 가독성을 제어합니다.
    • 줄 간격: PDF의 문단 간 줄 간격은 문서의 미적 감각과 가독성에 영향을 미칩니다.
    • 텍스트 정렬: PDF의 텍스트 정렬을 말하며 왼쪽 정렬, 가운데 정렬, 오른쪽 정렬 또는 양쪽 정렬이 포함됩니다.
    • PDF의 이미지 크기: PDF에 포함된 이미지의 크기로, 작음, 보통, 큼 옵션이 있습니다.

2. README.md

3. PDF 미리보기

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{points-reader,
  title={POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion},
  author={Liu, Yuan and Zhongyin Zhao and Tian, Le and Haicheng Wang and Xubing Ye and Yangxiu You and Zilin Yu and Chuhan Wu and  Zhou, Xiao and Yu, Yang and Zhou, Jie},
  journal={EMNLP2025},
  year={2025}
}

@article{liu2024points1,
title={POINTS1. 5: Building a Vision-Language Model towards Real World Applications},
author={Liu, Yuan and Tian, Le and Zhou, Xiao and Gao, Xinyu and Yu, Kavio and Yu, Yang and Zhou, Jie},
journal={arXiv preprint arXiv:2412.08443},
year={2024}
} @article{liu2024points,
title={POINTS: Improving Your Vision-language Model with Affordable Strategies},
author={Liu, Yuan and Zhao, Zhongyin and Zhuang, Ziyuan and Tian, Le and Zhou, Xiao and Zhou, Jie},
journal={arXiv preprint arXiv:2409.04828},
year={2024}
}
@article{liu2024rethinking,
title={Rethinking Overlooked Aspects in Vision-Language Models},
author={Liu, Yuan and Tian, Le and Zhou, Xiao and Zhou, Jie},
journal={arXiv preprint arXiv:2405.11850},
year={2024}
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
POINTS-Reader: 엔드투엔드 증류 없는 아키텍처를 갖춘 가벼운 문서 비전 언어 모델 | 튜토리얼 | HyperAI초신경