HyperAI초신경

손으로 쓴 텍스트를 디지털화하는 InkSight 데모

잉크사이트

1. 튜토리얼 소개

InkSight는 Google Research가 2024년에 출시한 혁신적인 인공지능 기술입니다. 특히 손으로 쓴 텍스트 인식 및 디지털화에 사용됩니다.InkSight: 읽고 쓰는 법을 배우면서 오프라인에서 온라인으로 필기 변환이 기술의 핵심 장점은 인간의 읽기 및 학습 과정을 모방하여 필기 텍스트를 지속적으로 재작성하고 학습함으로써 텍스트의 모양과 의미에 대한 이해를 축적하는 고유한 학습 방식에 있습니다. 기존의 광학 문자 인식(OCR) 기술과 비교하여 InkSight는 복잡한 배경, 흐릿한 텍스트 또는 저조도 환경에서 필기 텍스트를 처리할 때 더 높은 인식 정확도를 보여줍니다.

이 튜토리얼에는 2개의 함수가 포함되어 있습니다.

  • 단어 수준 전사: 이 기능은 입력 이미지를 단일 단어로 변환하고 출력은 InkSight로 처리하는 단어 수준 전사를 지원합니다.
  • 전체 페이지 전사: 이 기능은 전체 페이지 수준을 지원합니다. 입력 이미지는 전체 글쓰기 페이지가 될 수 있으며, 출력 이미지는 전체 InkSight가 될 수 있습니다.

InkSight의 인식 정확도는 매우 높습니다. 실험 결과, 사람은 InkSight가 생성한 텍스트 추적을 최대 87%의 정확도로 읽을 수 있으며, 추적 결과의 3분의 2 이상이 실제 필기체와 거의 구별할 수 없는 것으로 나타났습니다. 즉, InkSight는 손으로 쓴 텍스트를 인식할 수 있을 뿐만 아니라 매우 높은 정확도로 손으로 쓴 내용을 복원할 수 있습니다. 이는 손으로 쓴 텍스트를 기록하는 것을 좋아하는 사용자에게 큰 도움이 됩니다.

또한 InkSight는 문화유산 보호 분야에서도 큰 잠재력을 보여주고 있습니다. 귀중한 수기 문서를 효과적으로 디지털화하고, 역사 연구를 용이하게 하며, 디지털화가 덜 된 언어와 문화를 보호하고 계승할 수도 있습니다.

InkSight의 기술은 기존 OCR 기술을 능가할 뿐만 아니라, 필기 인식 분야에 새로운 혁신을 가져왔습니다. 이 기술은 딥 러닝, 신경망과 같은 최신 머신 러닝 기술을 사용하여 손으로 쓴 텍스트 인식을 보다 유연하고 강력하게 만듭니다. 이 기술의 출시는 필기 인식 분야에서 더 많은 혁신과 획기적인 발전을 위한 경쟁을 촉발할 수 있습니다.

2. 작업 단계

컨테이너를 시작한 후 약 5초 동안 기다려 모델이 로드되고, API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

1. 단어 전사

  • 단어 수준 추론 선택
  • 손으로 쓴 단어 한 개를 업로드하세요
  • 잉크를 클릭하여 렌더링하세요
  • 렌더링 결과 보기

2. 전체 페이지 필사본

  • 전체 페이지 추론을 선택하세요
  • 손글씨 전체 페이지 업로드
  • 잉크를 클릭하여 렌더링하세요
  • 렌더링 결과 보기

의사소통

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓