HyperAI超神经

2022 年度盘点 | 更成熟的 AI，更破圈的技术狂欢

2022 年在此起彼伏的咳嗽声中接近尾声，这一年，AIGC 成为人工智能领域最大黑马，ScienceAI 有了更多实际落地的应用，这一年我们经历了各大厂商缩减预算、裁撤员工，也体验了绝处逢生的技术狂欢……这篇文章，与各位同行共同回顾 2022 年那些人工智能领域具有突破性意义的研发成果。

data2vec

语音、视觉及文本自监督学习的通用框架

发布机构：Meta AI

发布时间：2022 年 1 月

项目地址：

https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec 是一个大一统的多模态自监督学习模型，可以以较高的性能处理图像、文本、语音等任务。

12 月 16 日 data2vec 2.0 发布，与现有的计算机视觉自监督算法相比，相同精度下速度快了 16 倍。

AlphaCode

竞赛级别代码生成 AI

发布机构：DeepMind

发布时间：2022 年 2 月

项目地址：

https://github.com/deepmind/code_contests

AlphaCode 借助大型语言模型，依据问题的语言描述构建代码。在 Codeforces 挑战赛中，AlphaCode 击败了 46% 的参赛者。该研究不仅登上了 Science 封面，还被该杂志评入年度十大科学突破。

Dall·E 2

文本到图像的生成工具

发布机构：OpenAI

发布时间：2022 年 4 月

项目地址：https://openai.com/dall-e-2/

Dall·E 2 依据文本描述，可以创建更加具有现实主义色彩的艺术图像。与 OpenAI 2021 年发布的 Dall·E 相比，Dall·E 2 可以生成更真实、更准确的图像，且分辨率提高了 4 倍。

An astronaut riding a horse in a photorealistic styleDall·E 2 生成的图像示例

Gato

全能型智能体

发布机构：DeepMind

发布时间：2022 年 5 月

项目地址：

https://www.deepmind.com/blog/a-generalist-agent

Gato 是一个全能型智能体，可以玩雅达利游戏、对图像进行描述、聊天以及根据上下文决定输出文本、关节扭力或其他 token 。

这种通用模型解决所有任务类似人工智能，最终或超过特定于专门领域的模型。

ESM Fold

蛋白质结构预测模型

发布机构：Meta AI

发布时间：2022 年 7 月

项目地址：

https://github.com/facebookresearch/esm

ESM Fold 是一个预测蛋白质序列的模型，能够直接进行高准确度、端对端、原子层级结构预测。它仅使用单个输入序列，只需查看单个蛋白质序列，这极大加快了推理速度。

Make-A-Video

依据文本生成视频的 AI 系统

发布机构：MetaAI

发布时间：2022 年 9 月

项目地址：https://makeavideo.studio/

Make-A-Video 是一个文本-视频生成模型，它通过带有文字描述的图像，来学习常用的描述方式，同时使用无标签视频，了解和学习移动方式。

Make-A-Video 生成的视频风格多样，对文本还原度高，是生成短视频方面的 SOTA 模型。

AlphaTensor

改进矩阵乘法，提升计算速度

发布机构：DeepMind

发布时间：2022 年 10 月

项目地址：

https://github.com/deepmind/alphatensor

AlphaTensor 改进了目前最优的 4*4 矩阵乘法，并且进一步提升了其他 70 余种不同大小矩阵乘法计算速度。该成果登上了 Nature 封面，被 Scinece 杂志评入年度十大科学突破。

Magic 3D

text-to-3D content 创建工具

发布机构：NVIDIA

发布时间：2022 年 11 月

项目地址：

https://deepimagination.cc/Magic3D/

NVIDIA 入局 AIGC，凭文字描述就可生成 3D Mesh 模型。它结合 image conditioning 技术以及基于文本提示的编辑方法，提供了一个控制 3D 合成的新思路，使得创建高质量 3D Mesh 模型成为可能。

ChatGPT

超级对话模型

发布机构：OpenAI

发布时间：2022 年 11 月

项目地址：

https://openai.com/blog/chatgpt/

ChatGPT 的训练使用了 RLHF (Reinforcement Learning from Human Feedback)，与 InstructGPT 使用的方法相同，仅在数据收集设置上有细微差别。

ChatGPT 可以像人类一样聊天交流，完成撰写邮件、视频脚本、文案、翻译及代码等任务。自上线以来，引起了海内外无数开发者的争相试用和热烈讨论，堪称 2022 年开发人员参与度最高的技术项目。

Point·E

依据文本描述生成 3D 点云

发布机构：OpenAI

发布时间：2022 年 12 月

项目地址：

https://github.com/openai/point-e

用 Point·E 依据文本提示生成 3D 点云的过程分为三个步骤：

1 、依据文本提示，生成一个合成视图 (synthetic view)

2 、依据合成视图，生成 coarse point cloud (1024 point)

3 、基于低分辨率点云和合成视图，生成 fine point cloud (4096 Point)

利用 Point·E 单卡 1 分钟生成 3D 点云，text-to 3D 告别高算力消耗时代。

冬去春来，畅想 2023

2022 即将画上句点，2023 注定是充满未知的一年，AIGC 领域会有哪些新成果？ScienceAI 将如何应对基础科学与 AI 交叉带来的挑战？芯片研发、国产操作系统，又会产生哪些新突破？

你对 2023 年人工智能领域的技术和应用有哪些预判，欢迎留言交流讨论~

超神经还有许多对这一年人工智能领域发展介绍的文章，点击阅读~

2022 年度盘点 | 更成熟的 AI，更破圈的技术狂欢

data2vec

语音、视觉及文本自监督学习的通用框架

发布机构：Meta AI

发布时间：2022 年 1 月

项目地址：

https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec 是一个大一统的多模态自监督学习模型，可以以较高的性能处理图像、文本、语音等任务。

12 月 16 日 data2vec 2.0 发布，与现有的计算机视觉自监督算法相比，相同精度下速度快了 16 倍。

AlphaCode

竞赛级别代码生成 AI

发布机构：DeepMind

发布时间：2022 年 2 月

项目地址：

https://github.com/deepmind/code_contests

Dall·E 2

文本到图像的生成工具

发布机构：OpenAI

发布时间：2022 年 4 月

项目地址：https://openai.com/dall-e-2/

Gato

全能型智能体

发布机构：DeepMind

发布时间：2022 年 5 月

项目地址：

https://www.deepmind.com/blog/a-generalist-agent

Gato 是一个全能型智能体，可以玩雅达利游戏、对图像进行描述、聊天以及根据上下文决定输出文本、关节扭力或其他 token 。

这种通用模型解决所有任务类似人工智能，最终或超过特定于专门领域的模型。

ESM Fold

蛋白质结构预测模型

发布机构：Meta AI

发布时间：2022 年 7 月

项目地址：

https://github.com/facebookresearch/esm

Make-A-Video

依据文本生成视频的 AI 系统

发布机构：MetaAI

发布时间：2022 年 9 月

项目地址：https://makeavideo.studio/

Make-A-Video 是一个文本-视频生成模型，它通过带有文字描述的图像，来学习常用的描述方式，同时使用无标签视频，了解和学习移动方式。

Make-A-Video 生成的视频风格多样，对文本还原度高，是生成短视频方面的 SOTA 模型。

AlphaTensor

改进矩阵乘法，提升计算速度

发布机构：DeepMind

发布时间：2022 年 10 月

项目地址：

https://github.com/deepmind/alphatensor

Magic 3D

text-to-3D content 创建工具

发布机构：NVIDIA

发布时间：2022 年 11 月

项目地址：

https://deepimagination.cc/Magic3D/

ChatGPT

超级对话模型

发布机构：OpenAI

发布时间：2022 年 11 月

项目地址：

https://openai.com/blog/chatgpt/

ChatGPT 的训练使用了 RLHF (Reinforcement Learning from Human Feedback)，与 InstructGPT 使用的方法相同，仅在数据收集设置上有细微差别。

Point·E

依据文本描述生成 3D 点云

发布机构：OpenAI

发布时间：2022 年 12 月

项目地址：

https://github.com/openai/point-e

用 Point·E 依据文本提示生成 3D 点云的过程分为三个步骤：

1 、依据文本提示，生成一个合成视图 (synthetic view)

2 、依据合成视图，生成 coarse point cloud (1024 point)

3 、基于低分辨率点云和合成视图，生成 fine point cloud (4096 Point)

利用 Point·E 单卡 1 分钟生成 3D 点云，text-to 3D 告别高算力消耗时代。

冬去春来，畅想 2023

你对 2023 年人工智能领域的技术和应用有哪些预判，欢迎留言交流讨论~

超神经还有许多对这一年人工智能领域发展介绍的文章，点击阅读~

2022 年度盘点 | 更成熟的 AI，更破圈的技术狂欢

data2vec

语音、视觉及文本自监督学习的通用框架

发布机构：Meta AI

发布时间：2022 年 1 月

项目地址：

https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec 是一个大一统的多模态自监督学习模型，可以以较高的性能处理图像、文本、语音等任务。

12 月 16 日 data2vec 2.0 发布，与现有的计算机视觉自监督算法相比，相同精度下速度快了 16 倍。

AlphaCode

竞赛级别代码生成 AI

发布机构：DeepMind

发布时间：2022 年 2 月

项目地址：

https://github.com/deepmind/code_contests

Dall·E 2

文本到图像的生成工具

发布机构：OpenAI

发布时间：2022 年 4 月

项目地址：https://openai.com/dall-e-2/

Gato

全能型智能体

发布机构：DeepMind

发布时间：2022 年 5 月

项目地址：

https://www.deepmind.com/blog/a-generalist-agent

Gato 是一个全能型智能体，可以玩雅达利游戏、对图像进行描述、聊天以及根据上下文决定输出文本、关节扭力或其他 token 。

这种通用模型解决所有任务类似人工智能，最终或超过特定于专门领域的模型。

ESM Fold

蛋白质结构预测模型

发布机构：Meta AI

发布时间：2022 年 7 月

项目地址：

https://github.com/facebookresearch/esm

Make-A-Video

依据文本生成视频的 AI 系统

发布机构：MetaAI

发布时间：2022 年 9 月

项目地址：https://makeavideo.studio/

Make-A-Video 是一个文本-视频生成模型，它通过带有文字描述的图像，来学习常用的描述方式，同时使用无标签视频，了解和学习移动方式。

Make-A-Video 生成的视频风格多样，对文本还原度高，是生成短视频方面的 SOTA 模型。

AlphaTensor

改进矩阵乘法，提升计算速度

发布机构：DeepMind

发布时间：2022 年 10 月

项目地址：

https://github.com/deepmind/alphatensor

Magic 3D

text-to-3D content 创建工具

发布机构：NVIDIA

发布时间：2022 年 11 月

项目地址：

https://deepimagination.cc/Magic3D/

ChatGPT

超级对话模型

发布机构：OpenAI

发布时间：2022 年 11 月

项目地址：

https://openai.com/blog/chatgpt/

ChatGPT 的训练使用了 RLHF (Reinforcement Learning from Human Feedback)，与 InstructGPT 使用的方法相同，仅在数据收集设置上有细微差别。

Point·E

依据文本描述生成 3D 点云

发布机构：OpenAI

发布时间：2022 年 12 月

项目地址：

https://github.com/openai/point-e

用 Point·E 依据文本提示生成 3D 点云的过程分为三个步骤：

1 、依据文本提示，生成一个合成视图 (synthetic view)

2 、依据合成视图，生成 coarse point cloud (1024 point)

3 、基于低分辨率点云和合成视图，生成 fine point cloud (4096 Point)

利用 Point·E 单卡 1 分钟生成 3D 点云，text-to 3D 告别高算力消耗时代。

冬去春来，畅想 2023

你对 2023 年人工智能领域的技术和应用有哪些预判，欢迎留言交流讨论~

超神经还有许多对这一年人工智能领域发展介绍的文章，点击阅读~

Command Palette

2022 年度盘点 | 更成熟的 AI，更破圈的技术狂欢

data2vec

AlphaCode

Dall·E 2

Gato

ESM Fold

Make-A-Video

AlphaTensor

Magic 3D

ChatGPT

Point·E

冬去春来，畅想 2023

Command Palette

2022 年度盘点 | 更成熟的 AI，更破圈的技术狂欢

data2vec

AlphaCode

Dall·E 2

Gato

ESM Fold

Make-A-Video

AlphaTensor

Magic 3D

ChatGPT

Point·E

冬去春来，畅想 2023

相关报道

成功预测 239 万抗噬菌体蛋白，法国团队利用深度学习模型绘制细菌抗病毒免疫图谱

在线教程丨低门槛部署英伟达最新 Physical AI 模型，覆盖人形机器人/人体运动生成/扩散模型微调等

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能，Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

MIT 提出首个端到端动力学蛋白质生成模型 VibeGen，实现序列与振动的双向映射

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

Command Palette

2022 年度盘点 | 更成熟的 AI，更破圈的技术狂欢

data2vec

AlphaCode

Dall·E 2

Gato

ESM Fold

Make-A-Video

AlphaTensor

Magic 3D

ChatGPT

Point·E

冬去春来，畅想 2023

相关报道

成功预测 239 万抗噬菌体蛋白，法国团队利用深度学习模型绘制细菌抗病毒免疫图谱

在线教程丨低门槛部署英伟达最新 Physical AI 模型，覆盖人形机器人/人体运动生成/扩散模型微调等

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能，Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

MIT 提出首个端到端动力学蛋白质生成模型 VibeGen，实现序列与振动的双向映射

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

相关报道

成功预测 239 万抗噬菌体蛋白，法国团队利用深度学习模型绘制细菌抗病毒免疫图谱

在线教程丨低门槛部署英伟达最新 Physical AI 模型，覆盖人形机器人/人体运动生成/扩散模型微调等

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能，Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

MIT 提出首个端到端动力学蛋白质生成模型 VibeGen，实现序列与振动的双向映射

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

相关报道

成功预测 239 万抗噬菌体蛋白，法国团队利用深度学习模型绘制细菌抗病毒免疫图谱

在线教程丨低门槛部署英伟达最新 Physical AI 模型，覆盖人形机器人/人体运动生成/扩散模型微调等

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能，Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

MIT 提出首个端到端动力学蛋白质生成模型 VibeGen，实现序列与振动的双向映射

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准