8 月 3 日,通义千问 70 亿参数通用模型和对话模型(简称 Qwen-7B 和 Qwen-7B-Chat)出现在 AI 模型社区魔搭 ModelScope 上,两款模型均开源、免费、可商用。
由此,阿里云成为国内大厂中第一个开源大模型的企业。
(资料图片仅供参考)
Qwen-7B 是支持中、英等多种语言的基座模型,Qwen-7B-Chat 是基于基座模型的中英文对话模型,在许多测基准,比如 MMLU、C-Eval 中,Qwen-7B 在 70 亿参数规模领域上都取得了良好的表现,阿里云表示其部分能力甚至可以赶超一些 120 亿参数大模型。
用户目前已经可以从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用这些模型,而通过开源代码,用户可以很方便地在消费级显卡上部署和运行模型。阿里云基于大模型的服务,包括训练、推理、部署和精调都可以应用在上述两个模型上。
这不是国内第一个免费、可商用的大模型。就在半个月前,智谱 AI 宣布 ChatGLM-6B 和 ChatGLM2-6B 允许免费商业使用,百川智能的 Baichuan 13B 模型在发布的同时就开源允许免费商用。
但通义千问是成为了第一个科技大厂的开源大模型,它的开源将被视为国内 " 百模大战 " 进入新阶段的一个标志——现在无论中美,也无论巨头还是中小初创公司,有关大模型开源的看法正在趋近于一致。
在 Meta 宣布开源 LLaMA 2 的时候,Meta 首席科学家、图灵奖获得者 Yann LeCun 就宣称,大模型行业的竞争格局将会改变。这是因为闭源依靠大力出奇迹的方式证明了大模型路线的可性能和极限,而开源则会通过繁荣的生态,让大模型变得真正可用、易用。
换而言之,大模型本身的神秘光环正在逐渐消褪。当技术不再难以逾越,繁荣的开源生态以及由此带来的群策群力的技术迭代和突破就成为了新的护城河。在 7 月举办的世界人工智能大会上,阿里云将促进中国大模型生态的繁荣作为自己的首要目标。
为此,阿里云打出了一套组合拳。
比如阿里云的灵积模型服务平台,它提供了一系列自动化的模型上云工具链路,让模型不仅能通过推理 API 被集成,也能通过训练微调 API 实现模型定制化。另外,去年推出的 AI 模型社区魔搭,已经聚集了 20 多家顶尖人工智能机构贡献的 1000 多款开源模型。它们彼此的部署链路是打通的,也就是说来自社区的模型可以通过灵积实现服务化——这看上去就像是个起步阶段的模型自由市场,它能够实现,当然是开源的功劳。
而任何市场都需要充分的竞争,归根结底,阿里云想要通过降低门槛来让开源大模型生态繁荣起来,就需要提供足够丰富、足够高质量的开源大模型参与其中。
通义千问的开源势在必行。
由此,千帆竞渡的百模大战,现在已经进入到了真刀真枪贴身肉搏环节——模型究竟好不好,不是靠吹出来的,开源到社区里,群众自会检验。
欢迎来到自由的大模型开放世界。