2023年AI领域重大进展:从Meta的LLaMA 2到Google的PaLM 2,多模态模型迎来新时代
AI 发展年表概述 2022年 2月,Midjourney 推出了第一个版本的图像生成模型。 3月,OpenAI 发布了两款新的人工智能模型:text-davinci-002 和 code-davinci-002,均通过API接口提供服务。 4月,Midjourney 发布了更新的图像生成模型 v2,并逐步推出了 DALL-E 2。 7月,Midjourney 推出了 v3 版本的图像生成模型。 8月,Stable Diffusion 1.4 问世。 10月,Stable Diffusion 1.5 成为可用版本。 11月,OpenAI 公开发布了基于 GPT-3.5 的聊天机器人 ChatGPT,迅速走红。Midjourney 推出了 v4 版本,Stable Diffusion 2.0 也正式上线。 12月,Stable Diffusion 2.1 推出。 2023年 2月,Meta 提供了 LLaMA 语言模型的开源版供研究使用,后来该模型被泄露。微软也开始逐步推出基于 GPT 升级版的 Bing AI。 3月,Midjourney 推出了 v5 版本。OpenAI 部分发布了具备多模态图像分析能力并改善多语言支持的 GPT-4。Google 有限地发布了基于 LaMDA 模型的 Bard 聊天机器人。 4月,Adobe 发布了新的图像生成模型 Firefly 的测试版。Reka AI 发布了一系列多模态语言模型。 5月,Midjourney 推出了 v5.1 版本,Google 基于PaLM 2升级了Bard,支持180个国家和多种语言。OpenAI 公布了一款能生成短视频的 Sora 模型,但暂未公开。 6月,Stability AI 推出了更新后的 Stable Diffusion 3 中型版本。苹果宣布推出 Apple Intelligence 系统,结合不同大小的AI模型完成不同的任务。 7月,Stable Diffusion 3 进一步发布了多个版本。OpenAI 和 Google 分别推出了新的模型 GPT-4o 和 Gemini 2.0,性能显著提升。Meta 的 Llama 3.2 开始支持图像识别功能。 8月,各大科技公司继续发布新的模型,如 Meta 的 Movie Gen 和 Pika 的 Video Model。Anthropic 发布了 Claude 3.5 新版本,并引入了一些实验性的计算机使用功能。 9月,阿里巴巴发布了新的 Qwen 2.5 模型,在推理能力方面表现优异。DeepSeek AI 推出了具备高级推理功能的 DeepSeek-R1-Lite-Preview 模型。Meta 推出了 Llama 3.2,表现与更大的模型相当。 10月,Meta 推出了用于生成视频、图像和音频的 Movie Gen 模型。Adobe 也发布了 Firefly Video 模型。Mistral AI 发布了一系列新的模型,包括多模态的 Janus AI 和生成高分辨率视频的 Video Model 2.0。 11月,阿里巴巴开放了 Qwen2.5 编码版本的源代码。DeepSeek AI 推出了具备强大推理能力的模型 DeepSeek-R1-Zero-Preview,并在多个领域接近 OpenAI 的 o1 模型。Suno AI 升级了音乐生成模型至 v4。Google 发布了 Gemini 2.0 Flash 的测试版,具备内置的图像生成能力。 12月,多家公司推出了新的高性能模型,如 Amazon 的 NOVA 系列,OpenAI 的 SORA 视频生成模型,Google 的 Veo 2 测试版,能够生成 4K 视频,以及 Meta 的 Apollo 视频生成模型。 2024年 2月,Stability AI 开始逐步发布 Stable Diffusion 3 更新。Google 推出了 Gemini 2.0 Flash 新更新,性能大幅提升。阿里巴巴、Meta 和 Mistral AI 也纷纷推出新版本,其中 Mistral AI 的 Mistral 小型模型表现出色,甚至在某些任务上超过了大型模型。 3月,xAI 推出了 Grok 3 和 Grok 3 小型版本,具备更强的推理能力和自主网络搜索功能。Anthropic 引入了 Claude 3.7 和 Claude 3.7 思考模式,进一步增强了编码和推理能力。DeepSeek AI 发布了 MoE 模型 DeepSeek-V3-0324。 4月,各大公司继续发布多模态和小型化模型,如 DeepSeek AI 的 Janus Pro 7B,Microsoft 的 Phi4 轻量级多模态模型,以及 Meta 的 Llama 3.3。 5月,OpenAI 宣布了 GPT-4.5 模型,具备先进的模式识别和减少幻觉的能力,提高了准确性和可靠性。 6月,阿里巴巴和 Meta 再次发布了新的推理模型,如 Qwen2.5-1M 和 Pixtral12B。DeepSeek AI 发布了 Janus Pro 7B,能够在文本和图像生成之间无缝切换。 7月,Google 宣布了多款高性能多模态模型,包括 Gemini 2.5 Pro 和最新版本的 Visual PDF Analysis,进一步提升了推理能力和规划能力。 8月,各大公司继续推进多模态模型的研发,如 Mistral AI 的 Pixtral Large 模型和 Meta 的 Movie Gen 1.5。 9月,Meta 发布了具备图像识别能力的 Llama 3.2,而 Google 则宣布了 Gemini 2.0 Flash 的全面升级版本,具备实时语音和视频生成能力。 10月,Google 和 Meta 继续发布更新的多模态模型,如 Google 的 Gemini-Exp-1206 和 Meta 的 Apollo 视频生成模型。 11月,OpenAI 开始测试 O3 轻量级推理模型,计划在2025年初推出免费版本。Google 发布了 Gemini 2.5 Pro,具备超长上下文处理能力。 12月,各大公司在年底推出了多项新功能,如 Google 的 Gemini 2.0 Flash Thinking 和 OpenAI 的深度搜索工具 DeepSearch。 2025年 1月,OpenAI 推出了 Operator,一个能够浏览网站并执行操作的实验性 AI 代理。Google 发布了 Gemini Flash Thinking 0121,进一步提高了推理能力。DeepSeek AI 开源了多个推理模型,包括 R1 和 R1-Zero。Alibaba 和 Meta 也相继推出了多个高性能模型,如 Qwen2.5-Max 和 Llama 3.3 70B。 2月,xAI 加入竞争,发布了 Grok 3 及其推理版本,训练计算量显著增加,性能领先。Anthropic 和 OpenAI 也分别推出了具备增强功能的新模型和工具。 3月,Google 推出了 Gemini 2.5 Pro,一个实验性的“思考模型”,在多项基准测试中名列前茅。OpenAI 集成了 GPT-4o 图像生成功能,使文本到图像的转换更加高保真。DeepSeek AI 更新了其 MoE 模型,进一步增强了推理、编码和数学能力。 业内评价与公司背景 这些 AI 技术的发展不仅展示了各公司在人工智能领域的持续创新,还反映了多模态模型和轻量化模型的重要趋势。OpenAI 和 Google 一直是 AI 领域的领头羊,不断推出性能更强、功能更丰富的模型。相比之下,Meta 和阿里巴巴也在迅速追赶,各自在多模态和推理能力方面取得了重大突破。DeepSeek AI 和 Stability AI 等初创公司则凭借开源和高性能的小型模型赢得了一席之地,为中小型企业和个人开发者提供了更多选择。随着 AI 技术的不断演进,未来将会有更多创新的功能和服务涌现。