HyperAI초신경

Docling: 문서 분석 도구

깃허브
별

1. 튜토리얼 소개

도클링

도클링  IBM이 2024년에 출시한 오픈소스 다기능 문서 변환 도구로, 문서 형식 변환 과정을 단순화하고 자동화하는 것을 목표로 합니다. PDF, Word, PPTX, Markdown 등의 여러 일반적인 파일 형식을 텍스트, Markdown, Doctags, JSON, YAML 등의 여러 가지 출력 형식으로 변환하는 기능을 지원합니다.

Docling은 문서 변환 및 처리를 위해 모듈식 디자인을 채택했으며, 다양한 요구 사항을 충족하기 위해 필요에 따라 다양한 변환 모드를 교체할 수 있습니다.

주요 특징:

  • 다양한 문서 형식의 변환을 지원합니다. 텍스트 , 가격 인하 , 문서 태그 , JSON , YAML 체재.
  • PDF, DOCX, PPTX, MD, ASCIIDOC 등 다양한 입력 형식을 지원합니다.
  • 다른 애플리케이션과 쉽게 통합할 수 있는 명확하고 간결한 인터페이스를 제공합니다.
  • Gradio를 통해 시각적 인터페이스를 구축하여 사용자가 대화형 파일 업로드 및 변환 작업을 수행할 수 있도록 지원합니다.

지원되는 파일 형식:

  • PDF: 텍스트, 마크다운, Doctags, JSON 및 YAML 형식으로 변환 가능합니다.
  • DOCX: 텍스트, 마크다운, Doctags, JSON 및 YAML 형식으로 변환 가능합니다.
  • PPTX: 텍스트, 마크다운, Doctags, JSON 및 YAML 형식으로 변환 가능합니다.
  • 가격 인하: 텍스트, 마크다운, Doctags, JSON 및 YAML 형식으로 변환 가능합니다.
  • 아스키독: JSON 및 YAML 형식으로 변환 가능합니다.

2. 작업 단계

1. 컨테이너를 시작하세요

通过 API 地址进入 Web 界面
웹 인터페이스

2. 파일 변환

进入 web 界面后,按照以下步骤进行操作:
조명 제어 단계

3. 교류 및 토론

🖌️ 만약 좋은 프로젝트를 발견했다면, 추천 메시지를 백그라운드에 남겨주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 모두들 QR 코드를 스캔하여 그룹에 가입하고, [SD 튜토리얼]에 의견을 남기고, 모든 사람과 기술적 문제를 논의하고, 신청 결과를 공유해 주시기 바랍니다!

그룹에 가입하세요