OCR 필기 인식의 어려움을 극복하세요! InkSight 튜토리얼이 출시되어 고정밀 필사가 가능해졌습니다. 23만 개의 자연종 오디오를 포함하는 iNatSounds 데이터 세트가 공개되었습니다.

손으로 쓴 메모는 많은 사람들이 일상생활에서 영감을 기록하는 방법이지만, 손으로 쓴 내용을 효율적으로 전자 텍스트로 변환하는 방법은 항상 큰 과제였습니다. 기존의 OCR(광학 문자 인식) 기술은 복잡한 배경이나 불규칙한 필체를 처리할 때 정확도가 떨어지는 경우가 많습니다.
이러한 문제를 해결하기 위해 Google Research는 최근 InkSight 기술을 출시했습니다. 이 기술은 딥 러닝을 통해 인간의 독서 과정을 시뮬레이션하고, 손으로 쓴 텍스트를 정확하게 인식하고, 스타일을 완벽하게 복원합니다. 기존 OCR과 달리 InkSight는 어두운 곳이나 복잡한 배경에서도 높은 정확도를 유지하며, 단어 단위와 전체 페이지 단위의 필사를 지원하며, 그 효과는 원본 필기체와 거의 같습니다. 이 기술은 문서 디지털화와 문화 유산 보호 등의 분야에서 큰 잠재력을 보여주었습니다.
많은 필기 애호가들이 영감을 쉽게 디지털화하고 귀중한 문서의 고정밀 필사를 용이하게 할 수 있도록 돕기 위해,InkSight 튜토리얼은 이제 hyper.ai 공식 웹사이트에서 이용할 수 있습니다. 클릭 한 번으로 복제해서 체험해 보세요~
온라인으로 실행:https://go.hyper.ai/gVh8a

11월 11일부터 11월 15일까지 hyper.ai 공식 웹사이트가 업데이트됩니다.
* 고품질 공개 데이터 세트: 10
* 고품질 튜토리얼 선택: 6개
* 커뮤니티 기사 선정: 4개 기사
* 인기 백과사전 항목: 5개
* 11월 마감일 상위 컨퍼런스: 2
공식 웹사이트를 방문하세요: hyper.ai
선택된 공개 데이터 세트
1. DrivingDojo 자율주행 데이터 세트
DrivingDojo 자율주행 데이터 세트에는 약 18,000개의 비디오 클립이 포함되어 있으며, 이는 실제 시각적 상호 작용을 시뮬레이션하도록 특별히 설계되었으며 풍부한 주행 동작, 다중 에이전트 상호 작용 및 오픈 월드 주행 지식을 포괄합니다. 이 데이터 세트는 운전 세계에 대한 상호작용적이고 지식이 풍부한 모델 개발을 촉진하는 것을 목표로 합니다.
직접 사용:https://go.hyper.ai/Y86yY

2. TuSimple 미국 고속도로 도로 이미지 데이터세트
TuSimple 데이터 세트에는 6,408개의 미국 고속도로 이미지가 포함되어 있으며, 이 중 3,626개는 훈련용, 358개는 검증용, 2,782개는 테스트용입니다. 이미지 해상도는 1280×720이며, 모든 이미지는 다양한 날씨 조건에서 촬영되었습니다.
직접 사용:https://go.hyper.ai/Mo6bt

3. 스포츠 분류 100 스포츠 이미지 데이터 세트
이 데이터 세트는 100가지 스포츠의 동영상 이미지를 담고 있으며, 모든 이미지는 224x224x3 jpg 형식입니다. 데이터는 훈련 이미지, 테스트 이미지, 검증 이미지로 구분됩니다. 또한, 데이터 세트에는 연구자들이 이미지 데이터를 로드하고 처리하는 데 도움이 되는 CSV 파일이 함께 제공됩니다.
직접 사용:https://go.hyper.ai/715At

4. 실내 식물 종 47개 실내 식물 종 데이터 세트
이 데이터 세트는 Bing Images에서 수집되었으며 47개의 다양한 식물 종 카테고리로 분류된 14,790개의 이미지를 포함하고 있습니다.
직접 사용:https://go.hyper.ai/v7wTX

5.BIOSCAN-5M 다중 모드 곤충 생물 다양성 데이터 세트
BIOSCAN-5M은 전 세계 곤충 생물다양성을 이해하고 모니터링하도록 설계된 포괄적이고 다중 모드의 곤충 생물다양성 데이터 세트입니다. 이 데이터 세트에는 500만 개가 넘는 곤충 표본에 대한 자세한 정보가 포함되어 있어 기존의 이미지 기반 생물학적 데이터 세트를 크게 확장할 수 있습니다.
직접 사용:https://go.hyper.ai/YDeuN

6. iNaturalist Sounds 데이터 세트 자연종 Sounds 데이터 세트
이 데이터 세트는 23만 개의 오디오 파일을 수집하여 전 세계 2만 7천 명 이상의 녹음자가 제공한 5,500개 이상의 종에서 나오는 소리를 담은 자연종 오디오 파일 컬렉션입니다.
직접 사용:https://go.hyper.ai/S0lg6

7. OpenSatMap 고해상도 위성 데이터 세트
OpenSatMap은 대규모 지도 구축을 위해 설계된 고해상도 위성 데이터 세트입니다. 여기에는 중국 내 여러 도시의 이미지뿐만 아니라 전 세계 18개국, 50개 이상의 도시의 이미지가 포함되어 있습니다. 이 이미지는 기존 위성 데이터 세트 중 가장 높은 20단계의 해상도를 가지고 있습니다.
직접 사용:https://go.hyper.ai/PtbCB

8. 카드 이미지 카드 이미지 데이터 세트
카드 이미지는 플레잉 카드 이미지 데이터 세트입니다. 데이터 세트에는 7,624개의 훈련 이미지, 265개의 테스트 이미지, 265개의 검증 이미지가 포함되어 있습니다. 모든 이미지는 224x224x3 jpg 형식입니다. 각 이미지는 한 장의 카드만 보여주도록 주의 깊게 잘라서 이미지의 50% 픽셀 이상을 차지했습니다.
직접 사용:https://go.hyper.ai/DuOJb

9. PD12M 대규모 이미지-텍스트 쌍 데이터 세트
PD12M은 1,240만 개의 고품질 퍼블릭 도메인 및 CCO 라이선스 이미지와 합성 캡션을 포함하고 있는 가장 큰 퍼블릭 도메인 이미지-텍스트 쌍 데이터 세트로, 주로 텍스트-이미지 모델을 훈련하는 데 사용됩니다.
직접 사용:https://go.hyper.ai/xyjrD

10. MINT-1T 텍스트-이미지 멀티모달 데이터 세트
MINT-1T 데이터 세트는 1조 개의 텍스트 태그와 34억 개의 이미지를 포함하는 멀티모달 데이터 세트로, 이전에 가장 큰 오픈 소스 데이터 세트의 10배 크기입니다. 이 데이터 세트에는 HTML 문서뿐만 아니라 PDF 문서와 ArXiv 논문도 포함되어 있어 과학 문서의 적용 범위가 크게 확대되었습니다.
직접 사용:https://go.hyper.ai/Vf3mq

선택된 공개 튜토리얼
1. 손으로 쓴 텍스트를 디지털화하는 InkSight 데모
InkSight는 손으로 쓴 텍스트를 인식하고 디지털화하는 기술입니다. 이 기술은 손으로 쓴 텍스트를 지속적으로 다시 쓰고 학습하여 인간의 독서 및 학습 과정을 모방하고, 이를 통해 텍스트의 모양과 의미에 대한 이해를 축적합니다. 기존의 광학 문자 인식(OCR) 기술과 비교했을 때 InkSight는 복잡한 배경, 흐릿한 텍스트 또는 어두운 환경에서 손으로 쓴 텍스트를 처리할 때 더 높은 인식 정확도를 보여줍니다.
이 프로젝트는 Gradio 인터페이스를 통해 프런트엔드 대화형 인터페이스를 생성할 수 있습니다. 관련 모델과 종속성이 배포되었습니다. 한 번의 클릭으로 손글씨 변환을 체험해 보세요.
온라인으로 실행:https://go.hyper.ai/gVh8a

2. CharacterGen은 단일 이미지에서 고품질 3D 캐릭터를 생성합니다.
CharacterGen은 단일 입력 이미지를 사용하여 다운스트림 리깅 및 애니메이션 워크플로에서 사용할 수 있도록 고품질과 일관된 모양의 3D 포즈 통합 캐릭터 메시를 생성합니다.
이 튜토리얼은 CharacterGen을 한 번의 클릭으로 실행하는 데모입니다. 관련 환경과 종속성이 설치되었습니다. 복제하고 시작함으로써 고품질의 3D 캐릭터를 생성하는 경험을 할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/jtVAF

3. Ministral-8B-Instruct-2410의 원클릭 배포
Ministral-8B는 Mistral AI 팀이 에지 디바이스와 에지 컴퓨팅 시나리오를 위해 특별히 개발한 언어 모델입니다. 질문에 답하고, 여러 언어로 된 텍스트를 번역하고, 문서를 요약하고, 기사와 보고서 작성을 돕는 등 여러 가지 작업을 수행할 수 있습니다. 이 모델은 인터리브 슬라이딩 윈도우 어텐션 모드를 채택하여 모델의 추론 속도를 향상시킬 뿐만 아니라 메모리 사용량도 크게 줄여 리소스가 제한된 에지 디바이스에서 실행하기에 매우 적합합니다.
공식 웹사이트로 가서 컨테이너를 복제하고 시작하고, API 주소를 직접 복사하면 모델과 통신할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/wMQWN

4. VASP 튜토리얼: 1-1. 분리된 산소 원자의 DFT 계산
VASP는 전자 구조 계산과 양자 역학-분자 동역학 시뮬레이션을 수행하기 위한 소프트웨어 패키지입니다. 이는 재료 시뮬레이션과 계산재료과학 연구를 위한 가장 인기 있는 상용 소프트웨어 중 하나입니다. 높은 정확도와 강력한 기능으로 인해 연구자들이 재료 특성을 예측하고 설계하는 데 중요한 도구가 되었습니다. 고체물리학, 재료과학, 화학, 분자동역학 및 기타 분야에서 널리 사용됩니다.
이 튜토리얼은 VASP 공식 튜토리얼의 첫 번째 부분입니다: 분리된 산소 원자의 DFT 계산. 아래 링크를 클릭하고 튜토리얼을 따라 DFT 고성능 계산을 처음부터 시작해 보세요.
온라인으로 실행:https://go.hyper.ai/pa2NX
💡또한, 안정적 확산 튜토리얼 교환 그룹도 만들었습니다. 친구들을 환영합니다. QR 코드를 스캔하고 [SD 튜토리얼]에 댓글을 남겨 그룹에 가입하여 다양한 기술 문제를 논의하고 신청 결과를 공유하세요~

커뮤니티 기사
1. 첫 번째! 4개 주요 대학이 공동으로 약물 연구 및 개발을 위한 대규모 언어 모델인 Y-Mol을 출시했으며 전반적인 성능이 LLaMA2를 앞섰습니다.
약물 개발에는 통일된 표준 패러다임이 없기 때문에 개발 과정이 복잡하고 정확한 데이터 라벨링이 필요하며, 이로 인해 약물 개발 분야에서 대규모 언어 모델을 적용하는 데 제한이 있습니다. 이에 대응하여 4대 대학의 연구팀은 다중 규모 생물의학적 지식에 기반한 대규모 언어 모델 Y-Mol을 공동으로 제안했습니다. 다양한 텍스트 코퍼스와 지침에 따라 미세하게 조정하여 약물 개발에 있어 모델의 성능과 잠재력을 향상시킬 수 있습니다. 본 논문은 연구논문을 자세히 해석하고 공유하는 것입니다.
전체 보고서 보기:https://go.hyper.ai/14X5I
2. 하버드 철학과에서 단백질 디자인 마스터 David Baker까지: AlphaFold를 통해 딥러닝의 힘을 깊이 깨닫게 되었습니다.
단백질 설계 분야의 세계적인 거장인 데이비드 베이커는 많은 딥러닝 도구를 오픈 소스로 공개했습니다. 그는 단백질 분야에서 700편 이상의 연구 논문을 발표하고 총 177,000회의 인용을 기록한 "학문의 왕"이기도 합니다. 데이비드 베이커는 질병 치료, 식품 생산, 재료 과학 등의 분야에서 21개 회사의 개발에 창립자로서 직접 참여했습니다. 클릭하여 데이비드 베이커의 전설적인 경험에 대해 읽고 알아보세요.
전체 보고서 보기:https://go.hyper.ai/ItxvG
HyperAI가 공동 주최한 COSCon'24 AI for Science 포럼에서 청화대학교 전자공학과 도시과학 및 계산연구센터의 박사후 연구원인 딩징타오가 "복잡한 도시 시스템의 AI 기반 모델링 및 패턴 발견"이라는 제목으로 연설했습니다. 그는 복잡한 도시 시스템의 시공간적 생성 모델링 방법과 팀의 최신 연구 진행 상황에 대해 심층적으로 설명했습니다. 유용한 정보가 가득하니, 클릭해서 읽어보세요.
전체 보고서 보기:https://go.hyper.ai/qaDYE
4. Jen-Hsun Huang이 손 마사요시(Masayoshi Son)와 대화: 일본의 새로운 AI 파이, Arm의 AI 야망, 동아시아에서 NVIDIA의 새로운 기회
11월 13일, 황런쉰과 손 마사요시는 일본에서 오프라인 대화를 나누며, 손 마사요시의 과거 엔비디아 투자를 검토하고 일본의 AI 개발에 대해 논의했습니다. 황런쉰은 마사요시 손은 "기술 변화의 모든 세대에서 승자를 선택하고 승자와 함께 일한 전 세계에서 유일한 기업가이자 혁신가"라고 단도직입적으로 말했습니다. 이 글에서는 두 나라 사이의 과거 분쟁과 현재의 개발 방향을 정리합니다. 자세한 내용을 보려면 클릭하세요.
전체 보고서 보기:https://go.hyper.ai/hLKbG
인기 백과사전 기사
1. UNA 정렬 프레임워크
2. 디지털 사촌
3. 모델 붕괴
4. 그래디언트 부스팅
5. 주파수 원리
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1300개 이상의 공공 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 400개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.
마지막으로 "크리에이터 인센티브 프로그램"을 추천드립니다. 관심 있는 친구들은 QR 코드를 스캔하여 참여할 수 있습니다!
