HyperAI초신경

2022년 연례 검토 | 더욱 성숙한 AI, 더욱 파괴적인 기술 카니발

2년 전
정보
Jiaxin Sun
特色图像

기침소리 속에서 2022년이 끝나가고 있습니다. 올해 AIGC는 인공지능 분야의 최대의 다크호스가 되었고, ScienceAI는 더 많은 실용성을 갖췄습니다. 올해 우리는 주요 제조업체들의 예산 삭감과 해고를 경험했고, 또한 절박한 상황에서 살아남기 위한 기술 카니발도 경험했습니다... 이 기사는,동료들과 함께 2022년 인공지능 분야의 획기적인 R&D 성과를 살펴보겠습니다.

데이터2vec

음성, 시각 및 텍스트의 자기 감독 학습을 위한 일반 프레임워크

출판사:메타 AI

출시 시간:2022년 1월

프로젝트 주소:

https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec는통합된 다중 모드 자기 감독 학습 모델,더 높은 성능으로 이미지, 텍스트, 음성 및 기타 작업을 처리할 수 있습니다.

12월 16일, 동일한 정확도를 가진 기존의 컴퓨터 비전 자율 지도 알고리즘보다 16배 빠른 data2vec 2.0이 출시되었습니다.

Data2vec 2.0 원칙

알파코드

경쟁 수준의 코드 생성 AI

출판사:딥마인드

출시 시간:2022년 2월

프로젝트 주소:

https://github.com/deepmind/code_contests

AlphaCode는 문제에 대한 언어 설명을 기반으로 코드를 구성하기 위해 대규모 언어 모델을 사용합니다.Codeforces 챌린지에서 AlphaCode는 46%의 경쟁자들을 물리쳤습니다. 이 연구는 Science지의 표지에 실렸을 뿐만 아니라, 해당 잡지가 선정한 올해의 10대 과학적 혁신 중 하나로 선정되었습니다.

AlphaCode 개요

달 E 2

텍스트를 이미지로 생성하는 도구

출판사:오픈AI

출시 시간:2022년 4월

프로젝트 주소: https://openai.com/dall-e-2/

Dall·E 2 텍스트 설명을 바탕으로 더욱 사실적인 색상으로 예술적인 이미지를 만들 수 있습니다.OpenAI가 2021년에 출시한 Dall·E와 비교했을 때 Dall·E 2는 4배 더 높은 해상도로 더욱 사실적이고 정확한 이미지를 생성할 수 있습니다.

사진처럼 사실적인 스타일로 말을 타고 있는 우주인 Dall·E 2가 생성한 이미지의 예

가토

전방위 지능형 에이전트

출판사:딥마인드

출시 시간:2022년 5월

프로젝트 주소:

https://www.deepmind.com/blog/a-generalist-agent

가토는 모든 면에서 지능이 뛰어난 에이전트입니다.아타리 게임을 플레이하고, 이미지를 설명하고, 채팅을 하고, 상황에 따라 텍스트, 조인트 토크 또는 기타 토큰을 출력할 수 있습니다.

이 일반 모델은 인공지능과 유사한 모든 작업을 해결하며 결국에는 도메인별 모델을 능가할 수도 있습니다.

이미지에 캡션을 추가하세요. 최대 140자까지 가능합니다(선택 사항)

ESM 폴드

단백질 구조 예측 모델

출판사:메타 AI

출시 시간:2022년 7월

프로젝트 주소:

https://github.com/facebookresearch/esm

ESM Fold는 단백질 서열을 예측하는 모델입니다.매우 정확하고 종단간 원자 수준 구조 예측을 직접 수행할 수 있습니다. 이 알고리즘은 단 하나의 입력 시퀀스만 사용하고, 단 하나의 단백질 시퀀스만 살펴보면 되므로 추론 속도가 크게 향상됩니다.

ESM Fold를 이용한 단일 시퀀스 구조 예측

메이크어비디오

텍스트로부터 비디오를 생성하는 AI 시스템

출판사:메타AI

출시 시간:2022년 9월

프로젝트 주소: https://makeavideo.studio/

Make-A-Video는 텍스트 설명이 있는 이미지에서 일반적인 설명을 학습하고, 레이블이 지정되지 않은 비디오를 사용하여 움직임 패턴을 이해하고 학습하는 텍스트-비디오 생성 모델입니다.

Make-A-Video에서 생성된 비디오는 다양한 스타일과 높은 텍스트 복원력을 갖추고 있어 짧은 비디오를 생성하기 위한 SOTA 모델이 되었습니다.

텍스트 설명을 기반으로 비디오를 생성하는 몇 가지 예

알파텐서

행렬 곱셈을 개선하고 계산 속도를 높입니다.

출판사:딥마인드

출시 시간:2022년 10월

프로젝트 주소:

https://github.com/deepmind/alphatensor

AlphaTensor는 현재 최적의 4*4 행렬 곱셈을 개선하고 다양한 크기의 70개 이상의 다른 행렬 곱셈의 계산 속도를 더욱 향상시킵니다. 이 결과는 Nature의 표지에 게재되었습니다.사이네스(Scinece) 잡지가 선정한 올해의 10대 과학적 혁신 중 하나로 선정되었습니다.

AlphaTensor 아키텍처 개요

매직 3D

텍스트-3D 콘텐츠 제작 도구

출판사:엔비디아

출시 시간:2022년 11월

프로젝트 주소:

https://deepimagination.cc/Magic3D/

NVIDIA가 AIGC에 합류합니다.3D 메시 모델은 텍스트 설명을 기반으로 생성될 수 있습니다.이미지 컨디셔닝 기술과 텍스트 기반 프롬프트 편집 방법을 결합하여 3D 합성을 제어하는 새로운 방식을 제공하여 고품질 3D 메시 모델을 만드는 것이 가능해졌습니다.

Magic 3D는 두 단계에 걸쳐 텍스트를 3D로 변환하는 콘텐츠를 만듭니다.

채팅GPT

슈퍼 대화 모델

출판사:오픈AI

출시 시간:2022년 11월

프로젝트 주소:

https://openai.com/blog/chatgpt/

ChatGPT는 InstructGPT와 동일한 방법인 RLHF(인간 피드백을 통한 강화 학습)를 사용하여 학습되지만, 데이터 수집 설정에만 약간의 차이가 있습니다.

ChatGPT는 사람처럼 채팅하고 소통할 수 있으며 이메일 작성, 비디오 스크립트, 카피라이터, 번역 및 코딩 등의 작업을 완료할 수 있습니다. 출시 이후 국내외 수많은 개발자들이 참여해 체험하고 열띤 토론을 벌였으며, 2022년 개발자 참여도가 가장 높은 기술 프로젝트라고 할 수 있습니다.

ChatGPT 교육 과정 개요

E 지점

텍스트 설명을 기반으로 3D 포인트 클라우드 생성

출판사:오픈AI

출시 시간:2022년 12월

프로젝트 주소:

https://github.com/openai/point-e

Point·E를 사용하여 텍스트 프롬프트를 기반으로 3D 포인트 클라우드를 생성하는 프로세스는 세 단계로 나뉩니다.:

1. 텍스트 프롬프트를 기반으로 합성 뷰 생성

2. 합성 뷰를 기반으로 거친 포인트 클라우드(1024개 포인트)를 생성합니다.

3. 저해상도 포인트 클라우드와 합성 뷰를 기반으로 미세 포인트 클라우드(4096 포인트) 생성

단일 Point·E 카드를 사용하면 1분 안에 3D 포인트 클라우드를 생성할 수 있으며, 텍스트-3D 변환은 높은 컴퓨팅 전력 소비 시대에 작별을 고합니다.

이미지에 캡션을 추가하세요. 최대 140자까지 가능합니다(선택 사항)

겨울이 지나고 봄이 왔습니다. 2023년을 상상해 보세요.

2022년이 끝나가고 있으며, 2023년은 미지수로 가득 찬 한 해가 될 것으로 예상됩니다. AIGC 분야에서는 어떤 새로운 성과가 있을 것인가? ScienceAI는 기초과학과 AI의 교차점에서 발생하는 과제에 어떻게 대응할까요? 칩 연구 개발과 국내 운영체계 분야에서 어떤 새로운 혁신이 일어날까요?

2023년 인공지능 분야의 기술과 응용 분야에 대한 예측은 어떠신가요? ~에 대한 논의를 위해 메시지를 남겨주세요.

Chao Neuro 역시 지난해 인공지능의 개발을 소개한 많은 기사를 게재했습니다. 클릭해서 읽어보세요~