Command Palette
Search for a command to run...
MarkItDown은 마이크로소프트의 오픈소스 문서 변환 도구입니다.
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

MarkItDown은 마이크로소프트 팀에서 2025년 8월에 출시한 경량의 플러그 앤 플레이 방식 파이썬 문서 변환 도구입니다. 다양한 일반 문서 및 리치 미디어 형식을 Markdown으로 효율적이고 구조적으로 변환하여, 대규모 언어 모델(LLM)의 텍스트 이해 및 분석 파이프라인에 최적화된 입력 형식을 제공하는 것을 목표로 합니다.
이 도구는 PDF, PPT와 같은 복잡한 문서 형식을 일반 텍스트로 변환할 때 발생하는 구조적 정보 손실 및 의미 요소 누락이라는 핵심 문제를 체계적으로 해결합니다. 이 도구는 사람이 읽기 쉽도록 시각적 충실도를 유지하는 데 초점을 맞추기보다는, 제목, 목록, 표, 링크 등과 같은 문서의 주요 논리적 구조를 보존하여 후속 AI 처리에 필요한 정보를 제공하는 데 중점을 두어 형식 호환성, 구조적 충실도, 처리 효율성 간의 균형을 달성합니다.
이 튜토리얼에서는 기본 리소스로 RTX 5090 그래픽 카드 하나를 사용합니다.
2. 프로젝트 예시

3. 작업 단계
1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델을 이용하실 수 있습니다.
"Bad Gateway" 메시지가 표시되면 모델 초기화 중이라는 의미입니다. 2~3분 정도 기다린 후 페이지를 새로고침해 주세요. PDF, PowerPoint(.pptx), Word(.docx), Excel(.xlsx), HTML, 이미지(OCR), 오디오(음성 인식), ZIP 압축 파일, YouTube 동영상 링크, EPUB 전자책 및 다양한 텍스트 형식(CSV/JSON/XML)을 지원합니다.
