再过俩月,ChatGPT 即将迎来推出一周年纪念日。作为开历史先河的 AI 大模型,ChatGPT 像一针猛戳进千行百业中枢神经的兴奋剂,在全球掀起空前绝后的 AI 军备竞赛热潮。
近一年来,我们看到 GPT-3.5 完成向多模态的 GPT-4 进化,号称 5620 亿参数的 Google PaLM 迈向参数规模更小、更高效的 PaLM 2;我们看到 Meta 开源其 Llama 大模型,并催生囊括 Alpaca 、 Vicuna 、 Koala 、 Falcon 等一众成本更低、规模更小的 「羊驼家族」……
短短数月,开源大模型社区百花齐放,大有与闭源分庭抗礼之势,甚至震动谷歌,引发其「没有护城河」的担忧。而 7 月 Meta 发布性能堪比 GPT-3.5 、可免费商用的开源版本 Llama 2,更是直接颠覆大模型格局,革了一些自研水平不及 Llama 2 的闭源大模型的命。
于是,不少人高呼「人手一个大模型的安卓时刻即将来临」。可我们还应看到,在开源大模型光明的图景下,还摆着一系列人才、组织、数据、商用限制等挑战;放眼国外,开源大模型有强如 Llama 2 之流,而国产开源大模型何时能与其并驾齐驱?开源与闭源的之争,最终会将大模型导向何方?
作者 | 铁塔
编辑 | 三羊
9 月 21 日,由中国信息通信研究院和中国通信标准化协会联合主办的 「2023 OSCAR 开源产业大会」在北京顺利召开,由 Segmentfault 思否、 HyperAl 超神经联合承办的「开源大模型」分论坛上,来自科研界、产业界、投资界专家就「开源大模型发展的机遇与挑战」展开了全方位、多角度的交流与探讨。
本场圆桌对话的三位嘉宾:华东师范⼤学数据科学与⼯程学院教授、开源社理事王伟;蚂蚁集团⾼级技术专家沙剑;知名投资机构副总经理徐开勇;主持人是 OpenBayes 贝式计算创始人兼 CEO 王臣汉。
从左至右依次为:
主持人:OpenBayes 贝式计算创始人兼 CEO 王臣汉
华东师范⼤学数据科学与⼯程学院教授、开源社理事 王伟
蚂蚁集团⾼级技术专家 沙剑
知名投资机构副总经理 徐开勇
点击下方链接直达论坛现场☟
我们在不违背原意的前提下将本场对话的精华部分汇总列示如下,接下来请大伙跟我们一起听听各位专家的精彩见解吧。
从去年 ChatGPT 推出到现在,我们看到国际上 GPT-4 发布、 Claude Anthropic 跟进、开源社区里 Llama 家族的迅速更新,中国国内涌现出一批本土化模型公司,开源社区也争妍斗艳,这些都表明大模型的发展相当之快。在场的三位老师分别来自科研界、产业界和投资界,想请大家从不同角度评估一下大模型领域的现状及未来发展趋势。 Q1:目前整体开源社区和 GPT-4 还有多大差距?是否存在一个临界点,使得开源界的总和成果超过任意商业公司的最领先水平?
王伟:人们经常把开源和闭源作为两种对立的方式,但我个人觉得这两种方式其实代表不同的商业策略。即便是开源的企业也需要投入巨大的资源,落后的企业可以通过开源来追赶领头者,而领先的企业同样能通过开源获取多方面的观点。
从长期发展的角度来看,商业化十分重要。商业化之外,如果我们希望在短期内扩大生态或开发者社区,开源提供了巨大的优势。 2023 年 Llama 2 开源以来,不仅吸引了大量的开发者,还吸引了很多做工具链、产业、评测的专业人士,这给 OpenAI 造成了一定压力。
开源最大的好处是可以让所有人看到它想做的事情以及打算如何去做。从学校的角度看,开源为高校学者们提供了一个便捷的研究渠道,进而生成有价值的研究成果,这些成果反过来会促进开源技术的发展,所以我一直认为开源是个很好的商业策略。
沙剑:从工业界角度观察,大模型这两年发展很快,如果没有大的技术浪潮或技术突破的话,其实模型结构本身已经趋于归一。
对于商业公司而言,一方面模型开源是有利于提高自身影响力,加速技术迭代;另一方面从模型效果来看,模型更多跟训练数据和训练方法有关,而闭源公司可能在这些方面有许多独到之处。
但是回顾漫长历史,我们始终相信任何技术的封闭都不会阻碍历史的进程。闭源公司的技术也终将再无隐藏的必要。
徐开勇:在投资界看来,开源一定会追赶上闭源的结果,但具体时间不好预估。但我个人认为开源可能在未来 2 到 3 年内追赶上闭源,因为就模型本身来讲,闭源的先发优势并不多。
先发优势一般分为两大类:比如芯片制造从 7 纳米到 3 纳米,后来者也需要依照固定路径发展;但大模式本身并不遵循这个路径,大模型包含两个重要方面,一是数据,二是训练方法。
虽然现在训练方法掌握在像 OpenAI 这样先进的闭源公司中,但是一旦社区发现更优解,或者闭源的公司有员工离职投入到了开源社区,那么开源的方法就会迅速增强。因此大模型本身不具备太多先发壁垒,这是第一点。
第二点是网络效应,比如团购 APP 有很多商家和用户,这样就具备了网络效应。但大模型的模型本身没有这样的特性,因而闭源大模型公司也不存在网络效应这一点的壁垒优势。
因此,我觉得开源一定能够超过闭源,只是时间点还要看目前的现状及进展。
可以看到,中国本土开源大模型领域呈现出两种发展方向,一种是追随国际先进大模型的脚步,比如有些人在开展 Llama 的本土化工作,另一种是像百川智能这样的领先团队,发布自己的中文大模型。整体来看,中文领域大模型是蓬勃发展的,但从数据评测角度看,中文的社区活跃度和国际上还存在一定差距。 Q2:在各位专家眼里,目前中文大模型领域开源的进展如何,是追赶闭源还是有原创性的贡献?各自比例分别是多少?中国在大模型领域的开源氛围如何?
王伟:我们潜意识里经常把中国的开源环境、氛围同西方做比较,其实开源本身是一个全球性现象,它意味着世界上任何一个地方都可以获取、传播及修改。
开源起源于欧美,从开始构建 Linux 和 Apache 的基金会到现在已经有几十年时间。相比之下,像 OSCAR 这样的大型开源会议在中国才刚刚兴起,但即便如此我们已经有很大发展了,从每年分会场发布的各种成果可见一斑。另外国家层面对于开源的重视程度也与日俱增,目前国内有越来越多的人在为全球开源做贡献。
再者,中文大模型对全球是个非常独特的创新点,因为中文是一门非常独特且丰富的语言,具有广泛的使用群体。我们做中文大模型并非是对抗或竞争,而是文化多样性的体现。在国际上也有很多多语言的评测和应用,我们也会有国际汉语这样的课程以及项目,这些在大模型下都有广泛的应用价值。
如果要评估中文大模型具体做到了什么程度,我个人觉得要从最后的应用效果来看。 ChatGPT 引发的这一轮 AIGC 之所以受大家欢迎,是因为它在文字和图形的生成上面具有显著优势。如果中文大模型能在像教育、国际交流等比较好的应用场景落地,那么它的影响力和先进性自然可以体现出来。
沙剑:首先从评测来说,早期 ChatGPT-4 中就有多语言评测,其实它是可以跨语言的,只是可能用主流语言表现比较好,冷门语言表现差一些。
现阶段很多中国机构开发中文模型的必要性在于,无论从国家还是企业的角度,都希望自己掌握核心技术,即便与直接调用人家的服务相比,成本更高效果暂时也不一定更好。
其次从社区角度,整个中国社区包括开源社区的氛围确实不如西方,但其实现在很多西方的基金会,包括 Apache 、 Linux Foundation 都在建中国分会,这些外国知名基金会及中国分会有望把中文社区带动起来。我们其实更希望看到本土有影响力的基金会发展起来自己的社区。
徐开勇:我认为中文大模型跟国外的大模型还是有些差距的,国外大模型支持多语言,国内则发展较慢,而且在中国本土也很少有学生用中文大语言模型来做作业、写作文或者解数学题,但在国外这种现象其实很常见。
这一方面是因为国产大模型有时候会出错,用户更多是来调戏它。所以我觉得中文大模型还有一段路要走,不过中文有自己的语言特色,国产大模型的生存和发展还有很多机会。
现在除了大模型本身,大家开始越来越多地关注整个大模型构建生态链上的其他项目,包括数据集、训练方法、芯片基座、芯片集群相关的软件以及推理相关的软件生态等。 Q3:请问各位老师,在开源大模型领域是否有关注其他的工具构件或商业公司?
王伟:除了生态,我还关注法律法规和合规相关的问题。
从学校角度来看,一个企业的社会影响比它的发展更为重要。特别针对大模型,我们经常谈到有关治理、合规性以及伦理等问题。大模型已经不是一种简单的独属于产业的技术,每个人都可以利用它生成文字和图片,在其巨大的影响力之下,也存在潜在的安全问题。
这些问题会映射到数据及技术工具上,比如你训练模型的数据质量、隐私性、安全性如何,这部分不仅需要工程师努力,也少不了律师等专业人士的大力支持,大家一起打造这个基座。在此基础上,我们再关注上面的芯片层、软件等内容。
技术层面我比较关注基础的工具链,这些工具链可能不会像商业公司那样直接有商业价值,高校会更有机会去做这些事情。目前很多高校例如复旦都会进行一些基础软件的构建,而这也是我们国家目前比较欠缺的东西,虽然这些工具链本身没有多大商业价值,但本身是核心关键的基础性东西。因此站在学校的角度,我们对这些及之前提到的道德合规问题更加关注。
沙剑:我从软件硬件角度聊一下其对大模型上下游的生态及影响。
大模型有多种解释,在算法开发人员眼里,大模型是个解决通用任务的算法模型;而从工程的角度,大模型就是大,算力、数据和参数量决定了模型的能力上限。但现在很多研究又开始关注大模型的轻量化,并非是不需要那么多参数,而是因为现在软件层和硬件层跟不上。
软件、硬件和算法的整个历史周期其实是一个螺旋式、互相促进的发展过程,而现在大模型把球抛了出去,它的软件尤其是硬件的成本很高。
当前影响大模型商业落地的最大问题是推理成本,虽然训练成本是第一方面,但即使训练慢点也行得通,毕竟这个过程是离线的,训练一个月也能出来千亿大模型。但推理不一样,比方说 QPS 做到几秒钟一个或者一分钟一个,如果向全国十几亿人免费提供,成本太高,若是收费又可能流失用户,这是最大的问题。
目前全国各方都在努力应对这些问题。从硬件层来看,由于美国打压,我们买到的卡基本是阉割版,各大公司也在探索国产卡的应用。就我观察而言,目前国产卡算力各种指标都不错。
软件方面,NVIDIA 基于 CUDA 构建的基于 GPU 生态的软件栈依旧有很强的护城河,从上层训练框架到底层算子库都覆盖,也是国产硬件厂商不得不翻越的一座大山。而各大硬件公司都在搞自己的软件栈,采用不同的策略。
但站在使用者和开发者角度,还是更希望他们能多在编译器层适配自己的生态,在用户层收敛到主流开源框架,让用户只能感知到性能的提升。目前看来主流有这种趋势,但各大公司出于自身商业战略肯定不能完全达成一致。
所以从软件和硬件层看,我们需要一定时间和技术突破来追上现在的需求。这是挑战,同时也是很大的机遇。
徐开勇:投资界很关注模型上下游及其关联产业。
比如模型底层,我们会看一些 3D 网络、 RDBMS 等基础设施层的机会;而应用层则会关注一些垂直行业的机会,比如金融行业自动读财报、公告,或自动做归纳,工业界做故障检测,企业拥有独家数据库,创业公司提供私有大模型或者大模型蒸馏出来的小模型,只解决这一个或者这一系列问题。
除了大模型上下游,投资人也会看一些大模型或人工智能新的可能性。比如我最近也在看开源领域、量子计算相关领域,因为传统的人工智能包括大模型,其性能是随成本线性增长的,但量子计算却是指数级增长。
过去 10-12 年里,美国纳斯达克有相当多基于开源技术诞生的上市公司(或者基于上市公司母体),比如 Apache 、 Mongo DB 等,可以看到这些投入开源的公司都实现了不错的商业价值和回报。但反观中国,鲜少有华人公司投入开源生态,而走到上市或领头这一步的更是凤毛麟角。 Q4:请问各位老师,中国开源生态的商业模式真正走通了吗?是否有成功的商业案例?如果有,大模型是否会促进这个趋势?如果没有,大模型是否有机会成为这个趋势的一部分?
徐开勇:国内基本没有开源的上市公司,但国外开源的上市公司数量众多,我认为中美两国开源上市成果的主要区别在于人才因素,美国吸引了全球人才,具有开放性理念、独到的见解,大部分开源项目的发起人都来自硅谷。
国内参与开源的开发者/意见领袖也很多,虽然目前还没有造就一家开源上市公司,但我认为未来是有可能的,尤其在大模型领域。
目前放眼全球,基本只有中美两国能做大模型,在国内我们面临的竞争更加直接,但多年来我们也培养了大量计算机人才,开源的参与者也越来越多,因此仍然有机会造就开源领域的上市公司。
沙剑:国内好像确实没有很成功的上市开源项目,但知名的开源项目和创业公司肯定是有的。
硅谷确实氛围会更好,毕竟也发展了很多年,而且国外的开源基金会和投资机构对于有潜力的开源项目有一套良好的孵化指导机制,包括社区协作和商业化培养,很多优秀项目可能并不是野蛮生长出来的。我们还需要一个追赶的过程,另外国家在这些方面包括教育领域也需要持续投入。
在中国这个蓬勃发展的产业中,如果要上市,首先公司的技术积累要比较深厚,其次需要一个经得起检验的商业模式。我发现很多优秀的开源项目都没有想好自己的东西到底怎么赚钱,但其实这才最重要的。
王伟:我想说三点,第一是商业化成功。我一直认为商业化成功和开源与否没有必然关系,商业化层面更多的看你是否被市场需要、是否满足客户需求,而开源现在更多是作为一个宣传的噱头。
第二点,大模型开源究竟意味着什么。模型开源不同于软件代码开源,模型开源后开发者和用户能在此基础上做些什么,这对我们来说都是新体验。模型开源虽然是一个可下载、可使用的一个方式,但它也带来了一些新的问题,很难适用传统开源的定义或框架。因此如何针对模型建设社区和生态是一个全新的问题。
我个人最关心的是人才培养,我认为开源十分有利于培养人才。
首先,它可以让高校的学生更快的接触最前沿的技术。很多大学在 Llama 出来后,马上做一些部署、微调以及把与自己领域相关的内容加入进去,这些都得益于开源。
其次,开源的协作模式对于学生的培养比单纯技术层面的培养更有用。它大大提高了学生的沟通能力,教会我们怎么和伙伴去做竞合关系,而这恰恰是中国学生所欠缺的。中国缺乏像国外那么成熟的开源项目,一方面是语言的原因,另一方面可能和中国人的习惯有关系——我们不太擅长在公开场合表达自己的观点,但在社区里需要基于一些事实表达自己的观点。因此开源非常锻炼学生这方面的能力。
我非常鼓励学生们参加开源项目以及社区,特别是中国的开源项目,同时也希望更多企业能给积极为社区做贡献的学生们多多提供机会。
当前大模型具备代码生成能力,甚至能提供工程架构建议,人们都说将来 AI 会取代很多岗位,尤其在计算机领域,工作范式可能会由于大模型的出现而产生一些变革。 Q1:请问王伟老师,作为华东师范大学的开源先锋和学术带头人,您在培养计算机领域人才的过程中对 AI 带来的变革有何思考?面对未来大模型越来越强的趋势,您在培养学生和人才方面,会注重他们哪些技能的提升?
王伟:我们目前正在积极拥抱开源,很多项目、课题、课程上的问答交互等都是用 GitHub 仓库的方式执行的,现在大模型来了,我们态度也同样如此。只要能用大模型做的事,我们都鼓励学生尽量用大模型去做,另外我们也鼓励老师加入这些实践。
对于计算机专业的学生和老师来说,仅仅会使用大模型是不够的,而且还要懂得背后的原理,这样才更好地做一些应用和工具。大模型以后一定会取代一些岗位和职业,但就像工业革命一样,虽然很多工人失业了,但也催生了更多新产业和职业。因此我们告诉学生以后一定会有更多新的产业和职业出现,在校期间就需要为此做好准备,而准备就从拥抱它开始。
第二,企业家的角色也非常重要,你们是创造岗位的组织。大模型出来之后,Prompt 工程师、调优工程师等新岗位也随之出现,以后也会有越来越多的新岗位,这些都是企业家创造出来的机会。
蚂蚁在开源生态中做过很多工作,比如 SOFA ,以及云原生中间件的一系列开源工作,这些工作可以说对业界整个云原生化的支持提供了非常好的生态基座。 Q2:沙剑老师能否介绍一下蚂蚁未来在开源大模型领域有哪些方向?同时作为技术专家,您如何评价蚂蚁在开源领域的工作效果,以及这些工作对整个蚂蚁公司来说价值几何?
沙剑:蚂蚁是拥抱开源的,内部项目孵化好的话公司也会鼓励大家开源,公司对此并没有商业化的指标,更多是为了提升技术影响力、打造科技公司形象。
AI 或者大模型领域的阵容可以分为几部分:
首先最基础的是 infra,相当于生产工具,整体会开源。现在第一步训练的 AI 基建在 DLRover 就完全能放出来,后续整个推理部分,还有 GPU 虚拟化、 GPU 集群、 AIDC 也会逐渐放出来。
应用层的话,有一些已经官宣的大模型可能由于数据问题没有完全开放,但一些垂类的大模型,比如 CodeFuse 也是在逐渐开源,现在有很多团队逐渐地向开源方向发展。
从我们自己的 DLRover 项目来讲,我们也在思考为什么要开源?这个项目有哪些潜在使用场景?
有些云厂商像阿里云和百度云需要卖自己的服务,所以应用和硬件都自己开发。但是还有很多机构,拥有大量硬件和研究人员,却缺乏专业的 infra 团队来高效地使用这些硬件,而这正是 DLRover 希望帮助的对象,相当于帮他们赋能或提供一套完善的、在蚂蚁内部经过验证的方案,这是一种潜在的可能;还有就是终端用户,比如个人开发者可以把我们某一个部件单独拿去运行。所以受众还是比较广泛的。
我们是想面向这些用户来打造我们这个项目,但后续怎么商业化或能否商业化,目前还没有这种目标。
根据观察,很少有中国人民币基金投资开源项目,之前在中国之前加注开源的主力也是一些美元基金。徐总所在的投资机构作为中国比较有代表性的人民币基金,曾直接或间接地投资了多个 AI 芯片/大模型公司。 Q3:作为一家退出业绩不错的基金,请问您所在机构及个人对投资开源有哪些思考?以后是否会对投资开源项目持积极态度,原因是什么?
徐开勇:开源是软件赛道中一股不容忽视的力量,我们公司在开源领域也有布局,曾投过技术软件 Infra 、数据库、数据治理等相关企业。我个人对信息技术、软件以及开源是有信仰的,从大学写代码起我就是开源的受益者和推动者。
我们整个基金的管理层也非常 open,大力支持开源领域的投资,也在持续关注和推动优质开源项目的发掘。不过不是所有投资机构都这么开放,有些投资人不太理解开源,认为开源等于免费,这也加大了投资开源的门槛。
以前的开源确实是以美元基金投资为主,不过现在美元基金已经褪去了大潮,那么人民币基金也要接起开源软件投资的旗帜来。
开源在 2021 年被首次写入国家「十四五规划」,凭借平等、开放、协作、共享的优秀创作模式,正持续成为推动数字技术创新、优化软件生产模式、赋能传统行业转型升级、助力企业降本增效的重要引擎。
大模型作为尖端新兴技术的代表,正处于向前发展的探索期。开源社区可以汇聚天下英才,合众人之力加速大模型的迭代、优化以及落地,从而以高质量的产品及服务推动各行各业的数字化转型及业务成功。
整体而言,开源大模型机遇无限,同时也面临不少挑战,当下国产大模型争相入场,谁将从硝烟四起的千模大战中脱颖而出?欢迎评论区留下你的观点。
本文首发自 HyperAI 超神经微信公众平台~