2024년 AI 컴파일러 베이징 오프라인 모임이 예정되어 있습니다! 수천만 개의 명령어를 미세 조정하기 위한 데이터 세트인 InfinityInstruct가 이제 오픈 소스로 제공됩니다.

고품질 교육 데이터는 대규모 언어 모델을 훈련하고 최적화하는 데 없어서는 안 될 리소스이며, 모델 성능을 개선하기 위한 초석입니다. 최근 베이징 인공지능 아카데미는 수천만 개의 고품질 교육 미세 조정 데이터 세트를 포함하는 오픈 소스 프로젝트 InfinityInstruct를 공개했습니다. 여기에는 오픈 소스 데이터 세트를 기반으로 한 고품질 선별 데이터와 데이터 합성 방법을 통해 구성된 고품질 교육 데이터가 포함됩니다.
모델 검증을 거친 300만 개의 고품질 중국어 및 영어 교육 데이터 세트 InfInstruct-3M의 첫 번째 배치가 이번 컨퍼런스에서 오픈 소스로 공개되었습니다.이제 hyper.ai 공식 웹사이트에서 이용 가능합니다. 이 데이터 세트를 사용하고 기본 모델을 자체 애플리케이션 데이터로 미세 조정하여 고품질의 독점적인 중국어-영어 이중 언어 대화 모델을 빠르게 구축할 수 있습니다.
6월 10일부터 6월 14일까지 hyper.ai 공식 웹사이트가 업데이트됩니다.
* 고품질 공개 데이터 세트: 10
* 엄선된 고품질 튜토리얼: 2개
* 커뮤니티 기사 선정: 4개 기사
* 인기 백과사전 항목: 5개
* 6월과 7월에 마감일이 있는 상위 컨퍼런스: 5개
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. InfInstruct-3M은 미세 조정을 위한 1,000만 개의 명령어 데이터 세트를 출시합니다.
이 데이터 세트는 베이징 인공지능 아카데미에서 출시되었습니다. 이 프로젝트의 목표는 대규모 언어 모델의 명령어 추적 기능을 지원하고, 이를 통해 모델 성능을 개선하기 위해 수백만 개의 명령어가 포함된 데이터 세트를 개발하는 것입니다. 이 버전은 InfinityInstruct-3M 명령어 데이터 세트이며, 최종 버전은 6월 말에 출시될 예정입니다.
직접 사용:https://go.hyper.ai/iG7gN
2. LooGLE 긴 컨텍스트 이해 벤치마크 데이터 세트
이 데이터 세트는 장기 맥락 이해에 있어 인공지능 시스템의 역량을 평가하고 개선하도록 설계된 벤치마크 데이터 세트입니다. 관련 연구 논문이 ACL2024에 수락되었습니다.
직접 사용:https://go.hyper.ai/S6dSZ
3. InternVid-Full 고품질 대규모 비디오-텍스트 데이터 세트
이 데이터 세트에는 16개 장면과 약 6,000개의 동작 설명이 포함된 700만 개 이상의 비디오가 포함되어 있으며, 총 길이는 약 760,000시간에 달합니다. 관련 논문은 2024년 표현 학습 국제 컨퍼런스(ICLR 2024)에서 주목을 받았습니다.
직접 사용:https://go.hyper.ai/AnaLl
4. 도메인 적응형 의미 분할을 위한 LoveDA 원격 감지 토지 피복 데이터 세트
이 데이터 세트는 원격 감지를 위한 토지 피복 데이터 세트로, 도메인 적응형 의미 분할을 위해 특별히 설계되었으며, 5,987개의 고해상도 이미지와 166,768개의 주석이 달린 의미 객체를 포함하고 있습니다.
직접 사용:https://go.hyper.ai/ShKyN
이 데이터 세트는 도시 건물에 초점을 맞춘 이미지 데이터 세트입니다. 일반적으로 많은 수의 도시 건물 이미지가 포함되어 있습니다. 이러한 이미지는 컴퓨터 비전 모델을 훈련하고 평가하는 데 사용할 수 있으며, 특히 건물 감지, 의미 분할, 인스턴스 분할과 같은 작업에서 유용합니다. 관련 결과는 CVPR 2024에 포함되었습니다.
직접 사용:https://go.hyper.ai/ddNqv
6. 폐기물 분류 재활용품 및 생활 폐기물 분류 데이터 세트
이 데이터 세트에는 다양한 재활용 재료, 일반 폐기물, 가정용품 등 30가지 범주에 속하는 15,000개의 이미지(각각 256×256픽셀)가 포함되어 있어 폐기물 분류 및 재활용 분야의 연구 개발을 위한 풍부하고 다양한 리소스를 제공합니다.
직접 사용:https://go.hyper.ai/kOiKG
7. 조류 525종 525종의 조류 이미지 데이터 세트
이 데이터 세트에는 525종의 조류, 84,635개의 훈련 이미지, 2,625개의 테스트 이미지, 2,625개의 검증 이미지가 포함되어 있습니다.
직접 사용:https://go.hyper.ai/pfw5d
8. OpenEarthMap 글로벌 고해상도 토지 피복 매핑 벤치마크 데이터 세트
이 데이터 세트는 6개 대륙에 걸쳐 44개국의 97개 지역을 포함하는 5,000개의 항공 및 위성 이미지에서 얻은 220만 개의 클립으로 구성되어 있으며, 지상 샘플링 거리 0.25~0.5m에 8개 클래스의 토지 피복 레이블이 수동으로 주석 처리되어 있습니다. 관련 논문 결과는 WACV 2023에 포함되었습니다.
직접 사용:https://go.hyper.ai/ubxmO
9. OpenMantra 만화 기계 번역 평가 데이터 세트
이 데이터 세트는 일본 만화에 대한 기계 번역 평가 데이터 세트입니다. 이 책에는 판타지, 로맨스, 격투, 서스펜스, 라이프 등 5가지 스타일의 만화가 수록되어 있습니다. 이 데이터 세트에는 총 1,593개의 문장, 848개의 장면, 214페이지의 만화가 포함되어 있습니다. 이는 도쿄 대학의 Mantra 팀에서 공개되었습니다.
직접 사용:https://go.hyper.ai/ISqUR
이 데이터 세트는 5,640개의 이미지로 구성되어 있으며, 각 이미지는 인간의 인지에 따라 47개 카테고리로 나뉘고, 각 카테고리에는 120개의 이미지가 있습니다. 각 이미지에 대해 주요 속성과 공동 속성 목록도 제공됩니다.
직접 사용:https://go.hyper.ai/aUYi3
더 많은 공개 데이터 세트를 보려면 다음을 방문하세요.
선택된 공개 튜토리얼
TripoSR은 Stability AI와 Tripo AI가 공동으로 개발했습니다. 단일 이미지에서 1초 이내에 고품질 3D 모델을 생성할 수 있으며, 컴퓨팅 파워 요구 사항이 낮아 일반 사용자도 로컬 기기에서 쉽게 사용할 수 있습니다. 이 튜토리얼은 여러분의 편의를 위해 환경을 설정했습니다.
온라인으로 실행:https://go.hyper.ai/is9qe
LGM, 즉 대형 다중 뷰 가우시안 모델은 텍스트 프롬프트나 단일 뷰 이미지로부터 고해상도 3D 모델을 생성하기 위한 혁신적인 프레임워크입니다. 이 방법을 사용하면 5초 이내에 3D 객체를 생성하고 학습 해상도를 512까지 높여 고해상도 3D 콘텐츠 생성이 가능합니다. 이 튜토리얼은 LGM의 데모 구현입니다.
온라인으로 실행:https://go.hyper.ai/pFnhg
또한, 우리는 안정적 확산 튜토리얼 교환 그룹도 만들었습니다. 친구들을 환영합니다. QR 코드를 스캔하고 [SD 튜토리얼]에 댓글을 남겨 그룹에 가입하여 다양한 기술 문제를 논의하고 신청 결과를 공유하세요~
커뮤니티 기사
1. 이벤트 미리보기 | 2024년 7월 6일 AI 컴파일러 베이징 첫 상영 예정!
첫 번째 Meet AI Compiler 베이징 모임은 2024년 7월 6일 중국과학원 컴퓨팅기술연구소 1층 강의실에서 개최됩니다! 이번 밋업에는 상하이 교통대학교, 중국과학원 컴퓨팅기술연구소, 마이크로소프트 아시아 연구소 등의 고위 AI 컴파일러 전문가 여러분을 초대하게 되어 영광입니다. 이들은 훌륭한 기조연설과 원탁토론을 진행하고, 실제 상황에서의 AI 컴파일러 기술의 응용과 획기적인 발전에 대해 논의할 것입니다."원문 읽기"를 클릭하여 가입하고 참여하세요!
전체 이벤트 정보 보기:https://go.hyper.ai/EA1uw
2. 지금 막! Apple, Apple Intelligence 출시, ChatGPT 무료 접속 공식 발표, Siri 주요 업데이트 시작
지난주, Apple은 Apple Intelligence를 출시하고 iOS 18과 Siri에 대한 주요 업데이트를 소개했습니다. 이전에 소문으로 돌았던 Apple과 OpenAI의 협업이 마침내 공식적으로 발표되었습니다. ChatGPT를 통합한 Siri는 더욱 자연스럽고, 상황에 맞고, 개인화되었으며, 일상 업무를 단순화하고 속도를 높일 수 있습니다. 이 글에서는 Apple Intelligence, Siri, iOS 18의 업데이트를 소개하고, Siri의 개발 역사를 정리하여 Apple의 Siri에 대한 AI 기능 업그레이드의 중요성을 더욱 강조합니다.
전체 보고서 보기:https://go.hyper.ai/kWmHC
3. CVPR 2024 최우수 논문 후보! 심천대학교와 홍콩이공대학교가 공동으로 MemSAM을 출시했습니다. 의료 영상 분할에 "모든 것을 분할" 모델을 적용합니다.
선전대학교 컴퓨터 및 소프트웨어 학부와 홍콩이공대학교 지능형 건강 연구 센터가 공동으로 구성한 팀은 새로운 심장초음파 비디오 분할 모델인 MemSAM을 제안했습니다. 이 모델은 소수의 포인트 큐를 사용하여 최첨단 성능을 달성하고 제한된 주석을 사용한 완전 지도 방식과 비슷한 성능을 보이며, 비디오 분할 작업에 필요한 큐 및 주석 요구 사항을 크게 줄입니다. 이 글은 연구에 대한 자세한 해석과 공유입니다.
전체 보고서 보기:https://go.hyper.ai/2s73Q
4. 알파폴드 한국판? 딥러닝 모델 AlphaPPIMd: 단백질-단백질 복합체 구조의 앙상블 탐색을 위한
연세대학교의 왕젠민 박사와 다른 연구자들은 트랜스포머 기반 생성적 신경망을 사용하여 딥 러닝과 생성적 AI를 결합해 단백질-단백질 복합체의 구조적 집합을 학습하고 탐색했으며, 여러 분자 동역학 궤적에서 단백질-단백질 복합체의 구조적 및 동적 메커니즘에 영향을 미치는 주요 잔류물을 학습하여 단백질-단백질 결합에 대한 기계적 통찰력을 제공했습니다. 이 글은 연구에 대한 자세한 해석과 공유입니다.
전체 보고서 보기:https://go.hyper.ai/MdgoV
인기 백과사전 기사
1. 상호 순위 퓨전 RRF
2. 마스크드 언어 모델링(MLM)
3. 학습률
4. YOLOv10 실시간 종단간 객체 감지
5. 콜모고로프-아놀드 표현 정리
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.
B 스테이션 생방송 미리보기
제프 딘은 구글의 수석 연구원이자 컴퓨터 과학자로, MapReduce와 TensorFlow 개발을 포함한 분산 시스템과 인공 지능 분야에서 선구적인 업적을 이룬 것으로 유명하며, 구글의 기술 개발에서 핵심 인물 중 한 명입니다. 이번 주에 Super Neuro TV는 제프 딘의 연설과 인터뷰를 생중계합니다.
다음 표는 편집자가 선택한 콘텐츠의 미리보기입니다↓↓↓
날짜 | 시간 | 콘텐츠 |
6월 17일 월요일 | 18:00 | Jeff Dean이 머신 러닝의 5가지 트렌드에 대해 이야기합니다. |
6월 18일 화요일 | 18:00 | AI가 모든 사람에게 서비스를 제공하게 하세요 |
6월 19일 수요일 | 18:00 | Jeff Dean의 AI 미래에 대한 긍정적인 전망 |
6월 20일 목요일 | 18:00 | 제프 딘의 스탠포드 의료 빅데이터 컨퍼런스 연설 |
6월 21일 금요일 | 18:00 | Jeff Dean의 딥러닝에 대한 강연 |
6월 22일 토요일 | 18:00 | 구글 브레인 & 브레인 레지던시 |
6월 23일 일요일 | 18:00 | Jeff Dean은 딥 러닝을 사용하여 문제를 해결하는 방법에 대해 논의합니다. |
슈퍼 뉴로 TV는 24시간, 주 7일 생중계로 방송됩니다. AI 분야에서 "전자 피클"을 얻으려면 클릭하세요:

http://live.bilibili.com/26483094
최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://hyper.ai/events
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1300개 이상의 공공 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 400개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.