HyperAI초신경

기존 OCR을 넘어! Google의 최신 성과인 InkSight의 원클릭 배포: 손으로 쓴 텍스트를 정확하게 인식하고 중국어와 영어에 대한 부담 없음

特色图像

과거에는 사람들이 학교에 입학하면서 먼저 배우는 것은 올바른 펜잡는 자세였으며, 그다음 기초적인 아라비아 숫자와 한자 병음부터 쓰기를 배우고, 점차 한자와 영어까지 발전했습니다. 종종 사람의 글쓰기 스타일은 그 사람의 성격 특성과 밀접한 관련이 있습니다. 강렬하고 힘찬 것부터 대담하고 자유분방한 것까지, 아름답고 우아한 것부터 고요하고 평화로운 것까지...

오늘날 컴퓨터, 휴대폰, 태블릿을 기반으로 한 전자 기록은 많은 경우 손으로 쓴 글을 빠르게 대체하고 있으며, 환경 보호와 탄소 감축이라는 전반적인 추세에 따라 '무지화'도 꾸준히 진행되고 있습니다. 그러나 손으로 쓴 글은 여전히 사람들의 일상생활에서 활발히 활용되고 있으며, 공부 노트, 즉흥적인 영감과 창의성 등이 그 예입니다. 동시에, 고대 문서는 대부분 손으로 베껴 쓰므로 이를 전자 형식으로 변환하면 장기 보관이나 즉시 검색에 도움이 됩니다.

이를 위해서는 손으로 쓴 텍스트를 정확하게 인식하는 것이 중요합니다.기존의 광학 문자 인식(OCR) 기술은 배경이 어수선하거나 필기체가 흐릿한 경우 성능이 떨어지며, 인식 정확도가 크게 떨어집니다.

최근 Google Research는 InkSight라는 새로운 기술을 공개했습니다. 이는 단순히 손글씨를 텍스트 문서로 변환하는 OCR과는 다릅니다.InkSight는 손으로 쓴 문서의 획 모음을 캡처하고 보다 자연스러운 방식으로 손으로 쓴 텍스트 인식을 실현할 수 있습니다.

구체적으로, 연구진은 손으로 쓴 텍스트의 사진을 촬영하고 획을 추출하는 동시에, 일반적인 기하학적 구조(즉, 이미지에서 그라디언트, 윤곽선, 모양을 사용하여 획을 추출하는 것)에 대한 의존성을 제거할 수 있는 렌더링 방법을 제안했습니다.훈련 모델은 인간을 모방하여 "읽기"와 "쓰기"를 이해하도록 합니다.전자는 쓰여진 텍스트를 인식할 수 있는 반면, 후자는 손으로 쓴 글씨와 유사한 획을 출력하고, 손으로 쓴 텍스트를 지속적으로 다시 쓰고 학습하여 텍스트의 모양과 의미에 대한 이해를 축적할 수 있습니다.

지금,HyperAI 공식 웹사이트의 튜토리얼 섹션에서 "손으로 쓴 텍스트를 디지털화하는 InkSight 데모"가 출시되었습니다.한 번의 클릭으로 복제를 온라인에서 경험해보세요! 와서 당신의 "잉크 보물"을 전자 포맷으로 변환하세요~

튜토리얼 링크:

https://go.hyper.ai/DR89z

데모 실행

1. hyper.ai에 로그인하고, 튜토리얼 페이지에서 InkSight Digitize Handwritten Text Demo를 선택하고, 이 튜토리얼을 온라인으로 실행을 클릭합니다.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. 오른쪽 하단에 있는 "다음: 해시레이트 선택"을 클릭합니다.

4. 페이지가 이동한 후 "NVIDIA GeForce RTX 4090"과 "PyTorch" 이미지를 선택하고, 필요에 따라 "Pay as you go" 또는 "Daily/Weekly/Monthly Package"를 선택한 후 "Next: Review"를 클릭하세요. 신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기): 

https://openbayes.com/console/signup?r=Ada0322_QZy7

5. 확인 후 "계속"을 클릭하고 리소스가 할당될 때까지 기다리세요. 첫 번째 복제 과정은 약 3분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다.API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.

모델이 너무 크기 때문에 컨테이너가 실행 중이라고 표시된 후 API 주소를 열기 전에 약 1분 정도 기다려야 합니다. 그렇지 않으면 BadGateway가 표시됩니다.

효과 표시

데모 인터페이스를 연 후,튜토리얼은 "단어 수준 추론"과 "전체 페이지 추론"의 두 가지 모드로 나뉩니다.참고: 단어 변환은 단일 문자나 단어의 인식에만 적용됩니다.

나는 "모든 것이 잘 되기를"과 "포레스트 검프"의 고전적인 대사를 손으로 써서 바보 같은 짓을 저질렀다. 중국어와 영어 모두 정확하게 인식되었습니다!

단어 전사
"포레스트 검프" 영어 대사 번역

우리는 "안정 확산 튜토리얼 교환 그룹"을 만들었습니다. 다양한 기술적인 문제를 논의하고 신청 결과를 공유하기 위해 그룹에 가입해 주세요~

아래의 QR 코드를 스캔하여 WeChat에 HyperaiXingXing을 추가하세요(WeChat ID: Hyperai01). 그리고 "SD 튜토리얼 교환 그룹"을 메모하여 그룹 채팅에 참여하세요.