HyperAI초신경

수만 단어의 긴 글을 출력하는 병목 현상을 극복하세요! 청화대학교가 LongWriter-6k 데이터 세트를 오픈소스로 공개했습니다. 7개 CCF Class A 컨퍼런스가 곧 마감됩니다.

特色图像

현재의 긴 컨텍스트 대형 모델은 방대한 텍스트 입력을 처리할 수 있지만, 긴 출력 예제가 부족하여 긴 콘텐츠를 생성할 수 없습니다. 이 문제를 해결하려면청화대학교 연구팀은 대형 모델의 최대 출력 창 크기를 10,000단어 이상으로 확장할 수 있는 LongWriter-6k 데이터 세트를 구축했습니다!

LongWriter-6k로 훈련된 모델의 도움으로, 줄거리의 기복과 매우 긴 분량의 소설 창작을 통해 흥미진진한 소설을 생성할 수 있을 뿐만 아니라, 독자들이 웅장한 문학 세계에 푹 빠질 수 있게 해줍니다. 학술 연구에서는 상세한 연구 보고서와 논문 검토를 생성하여 과학 연구자들에게 풍부한 참고 자료를 제공할 수도 있습니다.

hyper.ai 공식 웹사이트에서는 이제 온라인 사용도 지원하는 "LongWriter-6k 장문 컨텍스트 출력 데이터 세트"를 출시했습니다.아래로 스크롤하여 링크를 받으세요~

8월 19일부터 8월 23일까지 hyper.ai 공식 웹사이트가 업데이트되었습니다.

* 고품질 공개 데이터 세트: 10

* 엄선된 고품질 튜토리얼: 2개

* 커뮤니티 기사 선정: 2개 기사

* 인기 백과사전 항목: 5개

* 9월 마감일 상위 컨퍼런스: 7개

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. LongWriter-6k 긴 컨텍스트 출력 데이터 세트

이 데이터 세트에는 출력 길이가 2,000~32,000 단어(영어와 중국어 포함)인 6,000개의 SFT 데이터가 포함되어 있으며, 이는 LLM 학습을 지원하고 최대 출력 창 크기를 10,000개 이상의 단어로 확장할 수 있습니다.

직접 사용:https://go.hyper.ai/77byR

2. EVOBC Oracle-Bone 스크립트 진화 데이터 세트

이 데이터 세트에는 연구자들이 권위 있는 문서와 웹사이트에서 체계적으로 수집한 6개 역사적 시기의 고대 텍스트가 포함되어 있으며, 13,714개의 다양한 문자 범주를 나타내는 229,170개의 이미지로 구성되어 있습니다.

직접 사용:https://go.hyper.ai/oe5fU

3. HUST-OBS Oracle Bone 인식 데이터 세트

이 데이터 세트에는 책, 웹사이트, 기존 데이터베이스 등 3가지 서로 다른 출처에서 수집한 14만 개 이상의 이미지가 포함되어 있어, 현재까지 가장 큰 OBS 식별 및 복호화 데이터 세트 중 하나입니다.

직접 사용:https://go.hyper.ai/bXxx1

4. 알파카 청소 지침 미세 조정 데이터 세트

Alpaca-Cleaned 데이터 세트는 스탠포드 대학에서 2024년에 공개한 원래 Alpaca 데이터 세트의 정리된 버전입니다. 이 데이터 세트는 환각적인 답변, 병합된 지침, 빈 출력, 일관되지 않은 입력 필드 등 원래 Alpaca의 몇 가지 문제를 해결하여 데이터의 품질과 일관성을 개선했습니다.

직접 사용:https://go.hyper.ai/yNlAa

5. AI Medical Chatbot 의료 대화 데이터 세트

이는 의료 챗봇을 실행하기 위해 설계된 실험적 데이터 세트로, 환자와 의사 간의 대화 256,916건을 담고 있습니다.

직접 사용:https://go.hyper.ai/kaGzv

6. Openstory++ 대규모 이미지 인스턴스 데이터 세트

Openstory++는 기존 이미지 생성 모델이 긴 텍스트 컨텍스트에서 인스턴스 일관성을 유지하는 데 어려움을 겪는 문제를 해결하도록 설계되었습니다. 이미지와 텍스트의 인스턴스 수준 주석을 결합하여 긴 텍스트의 맥락에서 높은 일관성을 갖춘 이미지를 생성할 수 있는 풍부한 리소스를 제공합니다.

직접 사용:https://go.hyper.ai/no3E7

7. MedTrinity-25M 대규모 멀티모달 의료 데이터 세트

MedTrinity-25M에는 10가지 영상 방식을 망라한 2,500만 개 이상의 의료 영상이 포함되어 있으며, 65가지 이상의 질병에 대한 주석이 달려 있습니다. 이 데이터 세트는 풍부한 글로벌 및 로컬 주석을 포함할 뿐만 아니라, 여러 모달리티(예: CT, MRI, X선 등)의 다단계 정보 주석도 통합합니다. 이 데이터 세트는 의료 영상 처리, 보고서 생성, 분류 및 세분화와 같은 다중 모드 작업에 큰 지원을 제공하는 동시에 의료 기반 인공 지능 모델의 사전 학습을 촉진합니다.

직접 사용:https://go.hyper.ai/JCSJP

8. 1920년 레이더 와이트 타로 타로 이미지 데이터 세트

이 데이터 세트에는 라이더-웨이트 타로 카드의 원본 78장에 대한 이미지와 관련 텍스트 설명이 포함되어 있어 연구자와 예술가에게 타로 카드의 예술성과 상징주의를 탐구할 수 있는 풍부한 리소스를 제공하며, 타로 스타일 이미지를 생성하는 모델을 학습하는 데 사용할 수 있습니다.

직접 사용:https://go.hyper.ai/8bd2R

9. 워털루 탐사 대규모 이미지 품질 평가 데이터베이스
데이터베이스에는 4,744개의 원본 자연 이미지와 이 원본 이미지에서 생성된 94,880개의 왜곡 이미지가 포함되어 있으며, 이는 이미지 품질 평가 모델의 일반화 능력을 테스트하는 데 사용될 수 있습니다.
직접 사용:https://go.hyper.ai/m5mhN

10. SWE-bench 검증 코드 생성 평가 벤치마크 데이터 세트

벤치마크는 기존 SWE 벤치마크의 개선된 버전(하위 집합)으로, AI 모델이 실제 소프트웨어 문제를 해결하는 능력을 보다 안정적으로 평가하도록 설계되었습니다.

직접 사용:https://go.hyper.ai/oxOBY

더 많은 공개 데이터 세트를 보려면 다음을 방문하세요.

https://hyper.ai/datasets

선택된 공개 튜토리얼

1. ComfyUl AuraFlow Wenshengtu 워크플로 데모

이 모델은 GenEval에서 최첨단 결과를 달성했으며, 더 높은 처리 효율성과 텍스트 그래프 작업에서 더 나은 세부 표현을 제공합니다. 이 튜토리얼에서는 ComfyUI를 사용하여 AuraFlow 그래프 모델을 배포합니다. 모델과 관련 환경 구성이 구축되었으며 한 번의 클릭으로 추론을 위해 복제할 수 있습니다.

직접 사용:https://go.hyper.ai/KpI4B

2. Whisper Web 온라인 음성 인식 도구

Whisper는 음성 인식을 위해 ML을 사용하며 WebGPU를 사용하여 가속화할 수 있습니다. 100개 이상의 언어로 온라인/로컬 오디오 파일 업로드와 즉시 녹음을 지원합니다. 인식된 텍스트는 TXT 및 JSON 파일 형식으로 내보낼 수 있으며, 영어로 직접 번역할 수도 있습니다. 이 튜토리얼은 GitHub의 오픈소스 프로젝트인 Whisper Web을 기반으로 하며 Whisper를 사용하여 브라우저에서 직접 실행됩니다.

직접 사용:https://go.hyper.ai/N3iwm

커뮤니티 기사

1. 항암화학요법 저항성과 종양 재발에 맞서세요! 산둥대 연구팀, AI 활용해 유방암 줄기세포에 대한 강력한 방어력 구축

최근 산둥대학의 루하이취안(Lv Haiquan), 쑨롱(Sun Rong), 장카이(Zhang Kai), 산시 의과대학의 메이치(Mei Qi) 등은 헬릭스 매트릭스(Helix Matrix)의 연구팀과 협력하여 획기적인 진전을 이루었습니다. 그들은 머신 러닝 기술을 사용하고 mRNA 분석을 기반으로 원발성 유방암 환자의 샘플에서 암줄기세포의 특성을 평가하는 새로운 방법인 BCSC 시그니처를 성공적으로 개발했습니다. 본 논문은 연구논문을 자세히 해석하고 공유하는 것입니다.

전체 보고서 보기:https://go.hyper.ai/SPAjK

2. 상하이 교통대학교의 빙신 저우 박사: 희소한 생물학적 데이터 문제를 해결하고 그래프 신경망을 통해 단백질 이해와 생성을 재구성

상하이 교통대학교의 AI 생명공학 여름학교에서 상하이 교통대학교의 주빙신 박사는 "그래프 신경망과 단백질 구조 표현"이라는 주제로 단백질 예측 및 생성과 같은 분야에서 그래프 신경망의 정의, 장점, 최첨단 응용 분야에 대해 모든 사람과 공유했습니다. 이 기사는 주빙신 박사가 공유한 주요 내용을 요약한 것입니다.

전체 보고서 보기:https://go.hyper.ai/GjXi5

3. ACL2024 메인 컨퍼런스에 선정됨 | InstructProtein: 지식 지침을 사용하여 단백질 언어를 인간 언어에 맞추기

저장대학교 연구팀은 지식 지침을 사용하여 단백질 언어를 인간 언어에 맞춰 조정하는 InstructProtein을 제안했으며, 이를 통해 생물학적 시퀀스를 대규모 언어 모델로 통합하는 능력을 보여주었습니다. 본 논문은 연구논문을 자세히 해석하고 공유하는 것입니다.

전체 보고서 보기:https://go.hyper.ai/GjXi5

인기 백과사전 기사

1. 대응 t-검정

2. 상호 정렬 융합 RRF

3. 파레토 전선

4. 변형 오토인코더 VAE

5. 데이터 증강

다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

https://go.hyper.ai/wiki

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event

위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

다음주에 뵙겠습니다!

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1300개 이상의 공공 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 400개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함

* 100개 이상의 AI4Science 논문 사례 해석

* 500개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai