HyperAI

AI 发展年表概述 2022年 2月，Midjourney 推出了第一个版本的图像生成模型。 3月，OpenAI 发布了两款新的人工智能模型：text-davinci-002 和 code-davinci-002，均通过API接口提供服务。 4月，Midjourney 发布了更新的图像生成模型 v2，并逐步推出了 DALL-E 2。 7月，Midjourney 推出了 v3 版本的图像生成模型。 8月，Stable Diffusion 1.4 问世。 10月，Stable Diffusion 1.5 成为可用版本。 11月，OpenAI 公开发布了基于 GPT-3.5 的聊天机器人 ChatGPT，迅速走红。Midjourney 推出了 v4 版本，Stable Diffusion 2.0 也正式上线。 12月，Stable Diffusion 2.1 推出。 2023年 2月，Meta 提供了 LLaMA 语言模型的开源版供研究使用，后来该模型被泄露。微软也开始逐步推出基于 GPT 升级版的 Bing AI。 3月，Midjourney 推出了 v5 版本。OpenAI 部分发布了具备多模态图像分析能力并改善多语言支持的 GPT-4。Google 有限地发布了基于 LaMDA 模型的 Bard 聊天机器人。 4月，Adobe 发布了新的图像生成模型 Firefly 的测试版。Reka AI 发布了一系列多模态语言模型。 5月，Midjourney 推出了 v5.1 版本，Google 基于PaLM 2升级了Bard，支持180个国家和多种语言。OpenAI 公布了一款能生成短视频的 Sora 模型，但暂未公开。 6月，Stability AI 推出了更新后的 Stable Diffusion 3 中型版本。苹果宣布推出 Apple Intelligence 系统，结合不同大小的AI模型完成不同的任务。 7月，Stable Diffusion 3 进一步发布了多个版本。OpenAI 和 Google 分别推出了新的模型 GPT-4o 和 Gemini 2.0，性能显著提升。Meta 的 Llama 3.2 开始支持图像识别功能。 8月，各大科技公司继续发布新的模型，如 Meta 的 Movie Gen 和 Pika 的 Video Model。Anthropic 发布了 Claude 3.5 新版本，并引入了一些实验性的计算机使用功能。 9月，阿里巴巴发布了新的 Qwen 2.5 模型，在推理能力方面表现优异。DeepSeek AI 推出了具备高级推理功能的 DeepSeek-R1-Lite-Preview 模型。Meta 推出了 Llama 3.2，表现与更大的模型相当。 10月，Meta 推出了用于生成视频、图像和音频的 Movie Gen 模型。Adobe 也发布了 Firefly Video 模型。Mistral AI 发布了一系列新的模型，包括多模态的 Janus AI 和生成高分辨率视频的 Video Model 2.0。 11月，阿里巴巴开放了 Qwen2.5 编码版本的源代码。DeepSeek AI 推出了具备强大推理能力的模型 DeepSeek-R1-Zero-Preview，并在多个领域接近 OpenAI 的 o1 模型。Suno AI 升级了音乐生成模型至 v4。Google 发布了 Gemini 2.0 Flash 的测试版，具备内置的图像生成能力。 12月，多家公司推出了新的高性能模型，如 Amazon 的 NOVA 系列，OpenAI 的 SORA 视频生成模型，Google 的 Veo 2 测试版，能够生成 4K 视频，以及 Meta 的 Apollo 视频生成模型。 2024年 2月，Stability AI 开始逐步发布 Stable Diffusion 3 更新。Google 推出了 Gemini 2.0 Flash 新更新，性能大幅提升。阿里巴巴、Meta 和 Mistral AI 也纷纷推出新版本，其中 Mistral AI 的 Mistral 小型模型表现出色，甚至在某些任务上超过了大型模型。 3月，xAI 推出了 Grok 3 和 Grok 3 小型版本，具备更强的推理能力和自主网络搜索功能。Anthropic 引入了 Claude 3.7 和 Claude 3.7 思考模式，进一步增强了编码和推理能力。DeepSeek AI 发布了 MoE 模型 DeepSeek-V3-0324。 4月，各大公司继续发布多模态和小型化模型，如 DeepSeek AI 的 Janus Pro 7B，Microsoft 的 Phi4 轻量级多模态模型，以及 Meta 的 Llama 3.3。 5月，OpenAI 宣布了 GPT-4.5 模型，具备先进的模式识别和减少幻觉的能力，提高了准确性和可靠性。 6月，阿里巴巴和 Meta 再次发布了新的推理模型，如 Qwen2.5-1M 和 Pixtral12B。DeepSeek AI 发布了 Janus Pro 7B，能够在文本和图像生成之间无缝切换。 7月，Google 宣布了多款高性能多模态模型，包括 Gemini 2.5 Pro 和最新版本的 Visual PDF Analysis，进一步提升了推理能力和规划能力。 8月，各大公司继续推进多模态模型的研发，如 Mistral AI 的 Pixtral Large 模型和 Meta 的 Movie Gen 1.5。 9月，Meta 发布了具备图像识别能力的 Llama 3.2，而 Google 则宣布了 Gemini 2.0 Flash 的全面升级版本，具备实时语音和视频生成能力。 10月，Google 和 Meta 继续发布更新的多模态模型，如 Google 的 Gemini-Exp-1206 和 Meta 的 Apollo 视频生成模型。 11月，OpenAI 开始测试 O3 轻量级推理模型，计划在2025年初推出免费版本。Google 发布了 Gemini 2.5 Pro，具备超长上下文处理能力。 12月，各大公司在年底推出了多项新功能，如 Google 的 Gemini 2.0 Flash Thinking 和 OpenAI 的深度搜索工具 DeepSearch。 2025年 1月，OpenAI 推出了 Operator，一个能够浏览网站并执行操作的实验性 AI 代理。Google 发布了 Gemini Flash Thinking 0121，进一步提高了推理能力。DeepSeek AI 开源了多个推理模型，包括 R1 和 R1-Zero。Alibaba 和 Meta 也相继推出了多个高性能模型，如 Qwen2.5-Max 和 Llama 3.3 70B。 2月，xAI 加入竞争，发布了 Grok 3 及其推理版本，训练计算量显著增加，性能领先。Anthropic 和 OpenAI 也分别推出了具备增强功能的新模型和工具。 3月，Google 推出了 Gemini 2.5 Pro，一个实验性的“思考模型”，在多项基准测试中名列前茅。OpenAI 集成了 GPT-4o 图像生成功能，使文本到图像的转换更加高保真。DeepSeek AI 更新了其 MoE 模型，进一步增强了推理、编码和数学能力。业内评价与公司背景这些 AI 技术的发展不仅展示了各公司在人工智能领域的持续创新，还反映了多模态模型和轻量化模型的重要趋势。OpenAI 和 Google 一直是 AI 领域的领头羊，不断推出性能更强、功能更丰富的模型。相比之下，Meta 和阿里巴巴也在迅速追赶，各自在多模态和推理能力方面取得了重大突破。DeepSeek AI 和 Stability AI 等初创公司则凭借开源和高性能的小型模型赢得了一席之地，为中小型企业和个人开发者提供了更多选择。随着 AI 技术的不断演进，未来将会有更多创新的功能和服务涌现。

2023年AI领域重大进展：从Meta的LLaMA 2到Google的PaLM 2，多模态模型迎来新时代

Related Links