HyperAI

Revue Annuelle 2022 | Une IA Plus Mature, Un Carnaval Technologique Plus Disruptif

il y a 2 ans
Information
Jiaxin Sun
特色图像

L'année 2022 touche à sa fin au milieu des bruits de toux. Cette année, AIGC est devenu le plus grand outsider dans le domaine de l'intelligence artificielle, et ScienceAI a des applications plus pratiques. Cette année, nous avons connu des coupes budgétaires et des licenciements chez les principaux fabricants, et nous avons également vécu un carnaval technologique de survie face à des situations désespérées... Cet article,Passons en revue avec nos collègues les réalisations révolutionnaires en matière de R&D dans le domaine de l’intelligence artificielle en 2022.

données2vec

Un cadre général pour l'apprentissage auto-supervisé de la parole, de la vision et du texte

Agence d'édition :Méta IA

Heure de sortie :Janvier 2022

Adresse du projet :

https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec est unUn modèle d'apprentissage auto-supervisé multimodal unifié,Il peut traiter des images, du texte, de la voix et d'autres tâches avec des performances supérieures.

Le 16 décembre, data2vec 2.0 a été publié, qui est 16 fois plus rapide que les algorithmes auto-supervisés de vision par ordinateur existants avec la même précision.

Principes de Data2vec 2.0

AlphaCode

IA de génération de code de niveau compétitif

Agence d'édition :DeepMind

Heure de sortie :Février 2022

Adresse du projet :

https://github.com/deepmind/code_contests

AlphaCode utilise un grand modèle de langage pour construire du code basé sur la description linguistique du problème.Dans le défi Codeforces, AlphaCode a battu les concurrents de 46%. Cette recherche a non seulement fait la couverture de Science, mais a également été nommée l'une des dix plus grandes avancées scientifiques de l'année par le magazine.

Présentation d'AlphaCode

Dall E 2

Outil de génération de texte en image

Agence d'édition :OpenAI

Heure de sortie :Avril 2022

Adresse du projet : https://openai.com/dall-e-2/

Dall·E 2 Sur la base de la description textuelle, vous pouvez créer des images artistiques avec des couleurs plus réalistes.Par rapport à Dall·E publié par OpenAI en 2021, Dall·E 2 peut générer des images plus réalistes et précises avec une résolution 4 fois supérieure.

Un astronaute à cheval dans un style photoréaliste Un exemple d'image générée par Dall·E 2

Chat

Agent intelligent polyvalent

Agence d'édition :DeepMind

Heure de sortie :Mai 2022

Adresse du projet :

https://www.deepmind.com/blog/a-generalist-agent

Gato est un agent intelligent polyvalent.Il peut jouer à des jeux Atari, décrire des images, discuter et générer du texte, un couple articulaire ou d'autres jetons en fonction du contexte.

Ce modèle général résout toutes les tâches similaires à l’intelligence artificielle et peut éventuellement surpasser les modèles spécifiques à un domaine.

Ajoutez une légende pour l'image, pas plus de 140 caractères (facultatif)

Repli de l'ESM

Modèles de prédiction de la structure des protéines

Agence d'édition :Méta IA

Heure de sortie :Juillet 2022

Adresse du projet :

https://github.com/facebookresearch/esm

ESM Fold est un modèle permettant de prédire les séquences protéiques.Capable d'effectuer directement des prédictions de structure au niveau atomique, de bout en bout et très précises. Il utilise une seule séquence d'entrée et n'a besoin d'examiner qu'une seule séquence protéique, ce qui accélère considérablement l'inférence.

Prédiction de la structure d'une séquence unique à l'aide de ESM Fold

Faire une vidéo

Système d'IA qui génère des vidéos à partir de texte

Agence d'édition :MétaIA

Heure de sortie :Septembre 2022

Adresse du projet : https://makeavideo.studio/

Make-A-Video est un modèle de génération de texte en vidéo qui apprend les descriptions courantes à partir d'images avec des descriptions textuelles, et comprend et apprend les modèles de mouvement à l'aide de vidéos non étiquetées.

Les vidéos générées par Make-A-Video ont des styles variés et une restauration de texte élevée, ce qui en fait un modèle SOTA pour générer de courtes vidéos.

Quelques exemples de génération de vidéos basées sur des descriptions textuelles

AlphaTensor

Améliorer la multiplication matricielle et augmenter la vitesse de calcul

Agence d'édition :DeepMind

Heure de sortie :Octobre 2022

Adresse du projet :

https://github.com/deepmind/alphatensor

AlphaTensor améliore la multiplication matricielle optimale actuelle 4*4 et améliore encore la vitesse de calcul de plus de 70 autres multiplications matricielles de différentes tailles. Ce résultat a été publié en couverture de Nature.Nommée l’une des dix plus grandes avancées scientifiques de l’année par le magazine Scinece.

Présentation de l'architecture AlphaTensor

Magie 3D

Outils de création de contenu texte en 3D

Agence d'édition :NVIDIA

Heure de sortie :Novembre 2022

Adresse du projet :

https://deepimagination.cc/Magic3D/

NVIDIA rejoint AIGC,Des modèles de maillage 3D peuvent être générés sur la base de descriptions textuelles.Il combine la technologie de conditionnement d'image et les méthodes d'édition d'invites basées sur du texte pour fournir une nouvelle façon de contrôler la synthèse 3D, permettant de créer des modèles de maillage 3D de haute qualité.

Magic 3D crée du contenu texte en 3D en deux étapes.

ChatGPT

Modèle de super conversation

Agence d'édition :OpenAI

Heure de sortie :Novembre 2022

Adresse du projet :

https://openai.com/blog/chatgpt/

ChatGPT est formé à l'aide de RLHF (Reinforcement Learning from Human Feedback), la même méthode utilisée par InstructGPT, avec seulement de légères différences dans le paramètre de collecte de données.

ChatGPT peut discuter et communiquer comme un humain et effectuer des tâches telles que la rédaction d'e-mails, de scripts vidéo, la rédaction, la traduction et le code. Depuis son lancement, il a attiré d'innombrables développeurs nationaux et étrangers pour l'essayer et en discuter avec enthousiasme, et on peut dire qu'il s'agit du projet technologique avec la plus forte participation des développeurs en 2022.

Aperçu du processus de formation ChatGPT

Point E

Générer un nuage de points 3D basé sur une description textuelle

Agence d'édition :OpenAI

Heure de sortie :Décembre 2022

Adresse du projet :

https://github.com/openai/point-e

Le processus de génération d'un nuage de points 3D basé sur des invites textuelles à l'aide de Point·E est divisé en trois étapes ::

1. Générer une vue synthétique basée sur l'invite de texte

2. Générer un nuage de points grossier (1024 points) basé sur la vue synthétique

3. Générer un nuage de points fin (4096 points) basé sur un nuage de points basse résolution et une vue synthétique

À l'aide d'une seule carte Point·E, un nuage de points 3D peut être généré en 1 minute, et le texte en 3D dit adieu à l'ère de la forte consommation de puissance de calcul.

Ajoutez une légende pour l'image, pas plus de 140 caractères (facultatif)

L’hiver est passé et le printemps est là, imaginons 2023

L’année 2022 touche à sa fin et 2023 s’annonce comme une année pleine d’inconnues. Quelles nouvelles réalisations y aura-t-il dans le domaine de l’AIGC ? Comment ScienceAI répondra-t-elle aux défis posés par l’intersection entre la science fondamentale et l’IA ? Quelles nouvelles avancées résulteront de la recherche et du développement de puces et de systèmes d’exploitation nationaux ?

Quelles sont vos prédictions pour les technologies et applications dans le domaine de l’intelligence artificielle en 2023 ? Bienvenue pour laisser un message pour discuter~

Chao Neuro propose également de nombreux articles présentant le développement de l’intelligence artificielle au cours de l’année écoulée. Cliquez pour lire~