HyperAI
Command Palette
Search for a command to run...
DocBank 텍스트 데이터 세트

DocBank는 텍스트 데이터 세트입니다. 이 데이터 세트에는 문서 레이아웃 분석을 위한 세분화된 용어 수준 주석이 포함된 50만 개의 문서 페이지가 포함되어 있습니다. 이 데이터 세트는 arXiv.com에서 제공되는 \LaTeX{} 문서의 약한 감독을 통해 간단하면서도 효과적인 방식으로 구성되었습니다.
DocBank.torrent
시딩 2다운로드 중 0완료됨 463총 다운로드 수 820
이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.