大模型开闭源争议何在
➤模型能力是由算法、数据质量和算力投入大小决定,而不是由开源还是闭源决定
➤短期看,理想状态是在开闭源两种模式之间找到平衡,在技术进步与生态建立方面优势互补;长期看,大模型可能会像互联网一样,逐步走向开源,由全世界共同维护、共同受益
文 |《瞭望》新闻周刊记者 钱沛杉
大模型应该开源还是闭源?
开闭源对应两种软件开发模式——开源指开放源代码,将源代码公开发布并允许任何人查看、修改和使用;闭源则不公开源代码,只对外发布编译后的软件。2022年底ChatGPT横空出世,大模型开闭源路线之争如影随形。今年,国内大模型应用加速落地,开闭源争论愈发激烈。
4月,百度创始人李彦宏公开表示“开源模型会越来越落后”;5月,阿里云首席技术官周靖人称开源对全球技术及生态的贡献毋庸置疑,已没有再讨论的必要……
在9月底举办的2024世界计算大会上,国内外大模型产业的前沿动态备受关注,其中,大模型开闭源的争论被多次提及。
“现在开闭源模型数量几乎是五五开。”中国软件行业协会副秘书长、湖南先进技术研究院可控开源创新中心副主任杨程在大会上说。《中国人工智能大模型地图研究报告》显示,截至2023年5月28日,我国大模型数量已达79个,超半数属于开源模型,如清华大学的ChatGLM-6B、复旦大学的MOSS等。
业内人士告诉《瞭望》新闻周刊记者,大模型开闭源之争表面上是性能与技术路线之争,实则利益才是重中之重。短期看,理想状态是在开闭源两种模式之间找到平衡,在技术进步与生态建立方面优势互补;长期看,大模型可能会像互联网一样,逐步走向开源,由全世界共同维护、共同受益。
表面是技术策略之争
在2024世界计算大会的成果展示区,一款脑血管病专病大模型引来不少观众咨询。新华三集团工程师彭洋说,这款大模型被“投喂”了海量病历数据,医生仅需输入患者血压、心率、病史等信息,大模型就能给出详细的诊疗方案,展现出不俗的应用潜力。
业界将2023年称为大模型产业研发元年,今年则是大模型应用落地之年。推动应用落地,不仅要提升语言模型质量并配套不同技术,还要通过框架优化降低落地成本。在此背景下,开闭源路线之争引发热议。
开源派多论生态建设价值,闭源派则多讲性能领先优势。有业内人士认为,多数开源大模型并非“真”开源,闭源大模型的技术壁垒也尚未稳固,技术路线之争只是表象。
在传统软件领域,开源软件初期研发成本低、技术迭代快、便于建立生态已是不争的事实。据Linux基金会统计,全球软件产业代码中,70%以上源于开源软件。当前主流的基于深度学习框架的大模型大多也基于开源软件而来。
但大模型开发及授权模式与软件不同。杨程说,市面上多数大模型开源是以开放权重,即预训练模型为主,并没有开源数据和训练细节。有业内人士认为,只开放权重的大模型是闭源、开放使用的“免费软件”而非“开源软件”。
受访人士介绍,无论是大模型还是软件,发挥开源优势,本质上是吸收开发者对大模型或软件的改进。目前对开源大模型的改进主要通过微调实现,但因微调主要针对模型输出层调整不涉及核心构架和参数,无法从根本上改变模型的能力和性能。
即便“真开源”,受技术特性与训练成本所限,开放式协作对大模型性能提升效果也有限。杨程说,大模型训练过程需要耗费大量算力,算力成本居高不下,即便创作者开源数据集和训练细节,普通开发者也很难承担复现训练过程的高昂训练成本,模型能力难以因开放而得到实质提升。
数据显示,ChatGPT一次完整的模型训练成本超过8000万元。进行10次完整的模型训练,成本便高达8亿元。
因此,目前全球范围内的顶尖大模型多采取闭源开发策略。不过,闭源模型的性能优势正在减弱。
有海外机器学习科学家统计了2022年4月到2024年4月期间,开闭源模型的性能表现,认为尽管开源模型较闭源模型性能仍有差距,但差距正在缩短,由GPT-4刚发布阶段的滞后几年时间缩短到6至10个月。
“尽管开源模型并不像软件开源那样可直接获得性能提升,普通开发者仍可通过模型测评、论坛讨论等渠道向开发者反馈使用体验,整体上看,开源反馈迭代速度优于闭源。”受访者认为。
短期看,开源与闭源孰是孰非并非绝对。北京智源人工智能研究院副院长、总工程师林咏华认为,模型能力是由算法、数据质量和算力投入大小决定,而不是由开源还是闭源决定。
核心是利益之争
开源与闭源既是技术策略,更是商业策略。表面上的发展路线之争,实则是利益之争。
记者梳理国内知名大模型的开闭源情况发现,阿里云、腾讯等云厂商旗下模型更倾向于开源,智谱AI、百川智能、月之暗面等大模型创业公司则倾向于闭源。
“核心还是盈利模式。”受访者认为,生成人工智能算力成本高昂、研发投入较大给企业盈利带来一定困难。
根据市场媒体统计数据,国内已经有近8万家AI企业因为陷入资金困境而淘汰出局。想不被淘汰,找对盈利模式很重要。
选择不同的路线源于开发者基因不同。阿里云等云厂商核心业务是云服务(计算、存储、网络、数据库等),属于大模型的上游业务,选择模型开源的目的是通过免费的下游产品吸引开发者使用,促进数据消耗,带动上游云产品使用量。
选择闭源的企业则多为大模型创业公司,以AI为核心业务,希望靠大模型盈利,因此更强调闭源模型的价值。目前,闭源大模型主要通过应用程序编程接口(API)调用次数,即使用量计费。对企业多是以项目制结算,对消费者,常见模式则是通过订阅和广告抽成。相比开源,闭源的商业模式理论上更为健康,但短期内能否盈利仍有待观察。
在月之暗面创始人杨植麟看来,订阅按照用户数量收费,无法随着产品创造出更大的商业化价值,广告抽成模式即广告主为用户的注意力买单,已在互联网平台得到了验证,但因用户的时间与注意力有限,该商业模式的可持续性也相对局限。
受访人士认为,开源与闭源模式之争表面上是技术路线差异,实则是在大模型应用加速落地的背景下,企业为争夺市场占有率的商业策略之争。
参会嘉宾(右)在 2024 世界计算大会体验 AI 视频生成(2024 年 9 月 24 日摄) 陈振海摄 / 本刊
短期共存 长期走向开源
大模型企业之间开闭源口水仗不断,但这些争论并不会否定彼此的市场价值。“相比模式选择开源或闭源,用户更关心投入产出比和数据安全。”一家国产软硬件服务供应商负责人认为,在企业的工具箱里,开源模型与闭源模型是互补的。
“开源模型与闭源模型各有利弊。”他说,开源模型前期免费但无法“开箱即用”,后期隐性成本较高,更适合预算有限、对数据安全要求高的学术研究、业务探索等小型项目;闭源模型供应商通常会提供技术服务,模型相对稳定可靠但费用较高,适合对成本不敏感的大型项目。
简单来说,使用开源大模型约等于可以免费使用厨房但不提供菜谱,需要自己买菜做饭;使用闭源大模型则相当于付费去餐厅吃饭,餐厅提供现成的餐食和配套服务。
短期来看,二者并不冲突。记者了解到,一些企业会在前期通过免费的开源模型验证业务效果,中后期购买闭源模型与微调过的开源模型内部“赛马”,根据不同的业务需求随时切换。
对于模型开发企业而言,开源模型与闭源模型也可并行发展——开源前一代性能落后的模型吸引用户,再引导用户付费使用性能更强的闭源模型。“这样既能快速迭代技术、建立生态,也能逐步建立良性的盈利模式。”受访企业负责人说。
短期内,开源与闭源共存并相互竞争有利于国产大模型行业逐步壮大。北京邮电大学人机交互与认知工程实验室主任刘伟在一次采访中表示,开源会使不可控因素增多,但如果都闭源、奉行保守主义,AI技术发展则会放缓。理想状态是在开闭源间寻求平衡,前提是保证技术创新和发展的同时,能兼顾安全隐私、公平竞争、市场秩序、社会责任和可持续发展。如果一味地强调开源或闭源,是在将这个问题简单化。
业内有观点认为,长期来看,大模型或将走向开源。中国科学院院士梅宏在演讲中表示,大语言模型在未来需要像互联网一样,走向开源,由全世界共同维护一个开放共享的基础模型,尽力保证其与人类知识的同步。否则,任何一个机构所掌控的基础模型都难以让其他机构用户放心地上传应用数据,也就很难产生足以满足各行各业业务需求的大量应用。
“在这个开放共享的基础模型上,全球范围内的研究者和开发者可以面向各行各业的需求探讨各种应用,构建相应的领域模型。”梅宏说。□