HyperAI초신경

별 5.2천개! OCR 딜레마를 돌파한 슈퍼 혁신가가 여기에 있습니다. 다국어 의료 대형 모델은 오픈 소스이며 코퍼스 및 벤치마크 데이터 세트를 다운로드할 수 있습니다.

特色图像

오늘날 급속한 디지털 발전 시대에 OCR(광학 문자 인식) 기술이 대중화되었지만 여전히 많은 병목 현상이 존재합니다. 복잡하고 변화하는 상황에 직면하게 되면 기존 OCR 모델의 인식 정확도는 크게 떨어지고, 처리 흐름과 작업 단계가 매우 번거로워져 업무 효율성이 크게 떨어집니다.

세계 최초의 범용 엔드투엔드 OCR 모델 GOT-OCR-2.0이 최근 공식적으로 오픈 소스로 공개되었습니다! 이 기술은 낮은 이미지 품질, 복잡한 배경, 손으로 쓴 텍스트 인식 등의 기존 OCR의 한계를 해결합니다.이 모델은 이제 hyper.ai 공식 웹사이트에서 데모 튜토리얼을 제공합니다. 복잡한 설치 단계를 건너뛰고 복제하여 바로 시작할 수 있습니다.

온라인으로 실행:https://go.hyper.ai/JVVKQ

10월 1일부터 10월 12일까지 hyper.ai 공식 웹사이트가 업데이트됩니다.

* 고품질 튜토리얼 선택: 3개

* 고품질 공개 데이터 세트: 10

* 커뮤니티 게시물 선정: 5개 게시물

* 인기 백과사전 항목: 5개

* 10월 마감일 상위 컨퍼런스: 5개

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 튜토리얼

1. GOT-OCR-2.0 세계 최초의 범용 엔드투엔드 OCR 모델

GOT-OCR-2.0은 일반 OCR 이론을 기반으로 한 통합된 엔드투엔드 모델로, 광학 문자 인식(OCR)의 정확도와 효율성을 개선하는 데 중점을 두고 있습니다. 텍스트의 다양성과 복잡성을 효율적으로 처리할 수 있는 통합 아키텍처를 채택했습니다. GOT-OCR 2.0은 장면 텍스트 인식을 지원할 뿐만 아니라 여러 페이지 문서도 처리할 수 있어 OCR 분야에 더 큰 유연성을 제공합니다. 튜토리얼에 따라 컨테이너를 실행하고 API 주소를 직접 복사하여 모델 추론을 경험해 보세요.

직접 사용:https://go.hyper.ai/JVVKQ

효과 예시

2. IC-Light 이미지 조명 도구, 자연스러운 배경 융합 교체

IC-Light는 Imposing Consistent Light의 약자로, 머신 러닝 모델을 통해 이미지 재조명을 목표로 하는 프로젝트입니다. 텍스트 조건부 조명 모델과 배경 조건부 모델이라는 두 가지 주요 모델을 제공하며, 이는 각각 텍스트 힌트 또는 배경 콘텐츠에 따라 전경 이미지의 조명을 조정합니다.

이 프로젝트는 Gradio 인터페이스를 통해 프런트엔드 대화형 인터페이스를 생성할 수 있습니다. 관련 모델과 종속성이 배포되었으며 한 번의 클릭으로 시작할 수 있습니다.

직접 사용:https://go.hyper.ai/1Y0PQ

효과 예시

3. Fish Speech v1.4 음성 복제 - 텍스트 음성 변환 도구 데모

Fish Speech는 Fish Audio가 2024년에 개발한 텍스트-음성 변환(TTS) 모델로, 자연스럽게 들리는 고품질의 음성을 생성할 수 있습니다. 이 모델은 버전 v1.4로 업그레이드된 이후 약 70만 시간의 데이터 학습을 거쳤으며, 현재 중국어, 일본어, 영어 등 8개 언어에 능통합니다. 언어 처리 능력은 인간 수준에 가깝고, 음성 표현은 풍부하고 다양합니다.

이 튜토리얼에서는 모델을 최신 버전으로 업데이트하고 환경을 배포했습니다. 튜토리얼의 지침에 따라 음성 복제나 텍스트 음성 변환 작업을 직접 수행할 수 있습니다.

직접 사용:https://go.hyper.ai/t7O8m

선택된 공개 데이터 세트

1. MMedC 대규모 다국어 의학 코퍼스

데이터 세트에는 영어, 중국어, 일본어, 프랑스어, 러시아어, 스페인어 등 6개 주요 언어를 포함하는 약 255억 개의 의료 예측 데이터 토큰이 포함되어 있으며, 더 많은 언어에 대한 지원이 계속 업데이트되고 확장되고 있습니다.

직접 사용:https://go.hyper.ai/jXv0r

MMedC 데이터 세트 통계 개요

2. MMedBench 다국어 의료 능력 테스트 벤치마크 데이터 세트

이 데이터 세트는 의료 분야에서 다국어 모델 개발을 평가하기 위해 설계되었으며 6개 언어와 21개 의료 하위 분야를 포괄합니다. MMedBench의 모든 문제는 다양한 국가의 의료 검진 문제 은행에서 직접 추출하여 평가의 정확성과 신뢰성을 보장하고, 국가 간 의료 실무 지침의 차이로 인해 발생하는 진단 이해 편향을 방지합니다.

직접 사용:https://go.hyper.ai/8X9xD

MMedBench 데이터 세트 통계 개요

3. Lacuna 말라리아 탐지 데이터 세트

데이터 세트에는 총 3,925개의 말라리아 슬라이드 이미지가 포함되어 있으며, 이 중 2,747개는 훈련 세트에, 1,178개는 테스트 세트에 포함되어 있습니다. 이미지 외에도 이미지를 촬영한 슬라이드, 현미경의 스테이지 마이크로미터 판독값, 대물렌즈 설정이 기록되며, 슬라이드당 최대 40개의 이미지를 촬영합니다.

직접 사용:https://go.hyper.ai/9oBFv

데이터 세트 이미지 예시

4. HelpSteer2 인간 선호도 정렬 데이터세트

HelpSteer2에는 약 10,000개의 답변 쌍이 포함되어 있는데, 이는 기존의 선호도 데이터 세트보다 훨씬 작지만 보상 모델을 훈련하는 데 매우 효율적입니다. 이 데이터 세트는 인간의 선호도와 일치하는 고품질 답변을 생성하기 위해 대규모 언어 모델(LLM)을 안내할 수 있는 보상 모델을 훈련하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/YePhv

5. MMMLU 다국어 멀티태스크 언어 이해 데이터 세트

이 데이터 세트는 다양한 언어적, 인지적, 문화적 맥락에서 인공지능 모델의 성능을 평가하고 개선하는 것을 목표로 합니다. 대규모 다중 작업 언어 이해(MMLU) 벤치마크를 기반으로 구축된 MMMLU는 AI 모델이 달성한 상식적 지표로, 기초 지식부터 법률, 물리학, 역사, 컴퓨터 과학과 같은 고급 전문 분야에 이르기까지 57개 분야의 작업을 포함합니다.

직접 사용:https://go.hyper.ai/TY7aR

6. FRAMES-벤치마크 검색 향상 생성 테스트 세트

이 데이터 세트에는 2~15개의 위키피디아 문서에서 정보를 얻는 데 필요한 까다로운 멀티홉 질문 824개가 포함되어 있습니다. 문제에서는 역사, 스포츠, 과학, 동물, 건강 등의 주제가 다루어지며, 각 문제에는 수치적, 표적, 다중 제약 조건, 시간적, 사후 처리와 같은 추론 유형이 표시됩니다. 또한 이 데이터 세트는 각 질문에 대한 정답과 관련 위키피디아 문서도 제공합니다.

직접 사용:https://go.hyper.ai/zp5WQ

7. MedScribble 다중 이미지 분할 생물의학 작업 데이터 세트

이 데이터 세트에는 연구팀이 수집한 3명의 주석자가 직접 쓴 필기체가 포함되어 있으며, 14개의 다양한 오픈 액세스 생물의학 이미지 분할 데이터 세트에서 14개의 분할 작업을 완료했습니다. MedScrible에는 총 64개의 2D 이미지 분할 쌍이 포함되어 있으며, 각 쌍에는 3세트의 스크리블 주석이 들어 있습니다.

직접 사용:https://go.hyper.ai/X901T

8. CDFSOD-benchmark 크로스 도메인 소규모 샘플 객체 감지 벤치마크 데이터 세트

이 프로젝트의 목표는 소스 도메인과 타겟 도메인 사이에 상당한 도메인 차이가 있을 때 소규모 샘플 객체를 감지하는 문제를 해결하는 것입니다. 여기에는 알고리즘 평가를 위한 데이터 세트는 물론, 스타일, 클래스 간 분산(ICV), 도메인 차이를 측정하기 위한 정의 불가능한 경계(IB)와 같은 데이터 세트 지표가 포함됩니다.

직접 사용:https://go.hyper.ai/YQsnW

9. CLVR Jaco Play 데이터 세트 원격 제어 로봇 클립 데이터 세트

이 데이터 세트는 로봇 원격 제어, 자연어 처리, 인간-컴퓨터 상호 작용 등의 분야에서 일하는 과학자와 개발자에게 귀중한 리소스입니다. 여기에는 원격 조종 로봇 Jaco 2의 1,085개 클립과 해당 언어 주석이 제공됩니다.

직접 사용:https://go.hyper.ai/Xde69

10. 버클리 케이블 라우팅 다단계 로봇 케이블 작업 데이터 세트

버클리 케이블 라우팅 데이터 세트는 다단계 로봇 조작 작업을 연구하기 위한 데이터 세트로, 특히 케이블 라우팅 작업에 적용됩니다. 이 작업을 수행하려면 로봇이 일련의 클램프에 케이블을 꿰어야 하는데, 이는 변형 가능한 물체를 다루고, 시각적 인식 루프를 닫고, 여러 단계로 구성된 확장된 동작을 처리하는 등 복잡한 다단계 로봇 조작 시나리오의 과제입니다.

직접 사용:https://go.hyper.ai/aiML0

더 많은 공개 데이터 세트를 보려면 다음을 방문하세요.

https://hyper.ai/datasets

커뮤니티 기사

1. Nature의 하위 저널에 게재되었습니다! 본 논문의 제1저자는 습식 실험 데이터 부족 문제를 해결하기 위해 단백질 언어 모델의 소표본 학습 방법을 자세히 설명합니다.

"AI4S를 만나다" 생방송 시리즈의 세 번째 에피소드에서 상하이 교통대학교 자연과학연구소 홍량 교수 연구팀의 박사후 연구원인 저우쯔이는 "단백질 언어 모델을 위한 소규모 표본 학습 방법"이라는 주제로 팀의 최신 연구 결과를 공유하고 AI 지원 지향 진화에 대한 새로운 아이디어를 탐구했습니다. 이 기사는 그의 연설의 주요 내용을 요약한 것으로, 유용한 정보가 가득합니다.

전체 요약을 확인하세요:https://go.hyper.ai/MzXfg

2. Jeff Dean은 Google의 새로운 연구를 좋아합니다. 고래 생물음향 모델은 8가지 유형의 고래를 식별할 수 있습니다.

구글 연구팀은 고래의 새로운 생물음향 모델을 개발했습니다. 이 모델은 현재 알려진 고래 종 94종 중에서 8종을 식별할 수 있습니다. 본 논문은 논문에 대한 자세한 해석과 공유입니다.

전체 보고서 보기:https://go.hyper.ai/1l2HO

3. 에이전트 심리 클리닉이 온라인화되었습니다! 상하이 교통대학교 연구팀은 1.3K건의 우울증 상담 대화를 기반으로 우울증을 진단할 수 있는 대규모 모델 대화 에이전트를 구축했습니다.

상하이 교통대학교 X-LANCE 연구실의 우멍웨이 교수 팀은 천교 뇌과학 연구소와 ThetaAI와 협력하여 우울증의 예비 진단을 위한 자동화된 대규모 모델 대화 에이전트 시뮬레이션 시스템인 지능형 심리 클리닉 AMC를 구축했습니다. 본 논문은 연구논문을 자세히 해석하고 공유하는 것입니다.

전체 보고서 보기:https://go.hyper.ai/AdjI5

4. 단백질 동적 도킹 예측을 실현하세요! 상하이 교통대학교/싱야오 테크놀로지/중산대학교 등이 공동으로 기하학적 심층 생성 모델인 DynamicBind를 출시했습니다.

상하이 교통대학교의 정쌍자(鄭雙家) 연구 그룹은 미국 스타 파마 테크놀로지, 중산대학교 약학대학, 라이스대학교와 협력하여 동적 단백질 도킹을 위해 설계된 기하학적 심층 생성 모델인 DynamicBind를 제안했습니다. 이는 알파폴드 이후 시대의 약물 개발을 위해 단백질의 동적 변화를 고려하는 심층 학습 기반의 새로운 연구 패러다임을 제공합니다. 본 논문은 연구논문을 자세히 해석하고 공유하는 것입니다.

전체 보고서 보기:https://go.hyper.ai/nErwd

5. 알파폴드, 노벨상 수상…딥마인드 CEO 수상 소감: 최고의 과학자와 AI가 놀라운 업적을 이룰 것

데이비드 베이커, 데미스 하사비스, 존 M. 점퍼가 2024년 노벨 화학상을 수상했습니다. DeepMind의 CEO인 데미스 하사비스는 "이러한 AI 도구를 사용하는 최고의 과학자들은 놀라운 업적을 이룰 수 있을 것"이라고 말했습니다. 데이비드 베이커는 심지어 "알파폴드는 매우 고무적이다"라고 솔직하게 말했습니다. 이 기사는 올해의 노벨 화학상 수상자에 대한 자세한 보고서입니다.

전체 보고서 보기:https://go.hyper.ai/UPpuB

인기 백과사전 기사

1. 변압기 모델

2. 변형 오토인코더 VAE

3. 인공신경망

4. 파레토 전선

5. 대규모 멀티태스크 언어 이해(MMLU)

다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

https://go.hyper.ai/wiki

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event

위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

다음주에 뵙겠습니다!

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1300개 이상의 공공 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 400개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함

* 100개 이상의 AI4Science 논문 사례 해석

* 500개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai