百川智能正式发布130亿参数通用大语言模型百川大模型(Baichuan-13B-Base)
发布时间:2024年06月06日
就在刚刚,王小川的开源大模型又有了新动作——
百川智能,正式发布130亿参数通用大语言模型(Baichuan-13B-Base)。
并且官方对此的评价是:
性能最强的中英文百亿参数量开源模型。
与此一同出道的,还有一个对话模型Baichuan-13B-Chat,以及它的INT4/INT8两个量化版本。
但更重要的一点是(划重点),完全开源!免费可商用!
Baichuan-13B 有如下几个特点:
更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到130亿,并且在高质量的语料上训练了1.4万亿 tokens,超过 LLaMA-13B40%,是当前开源13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为4096。
同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。
更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8和 int4的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia3090这样的消费级显卡上。
开源免费可商用:Baichuan-13B 不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。
【HuggingFace】
预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
【GitHub】
https://githuB.com/Baichuan-inc/Baichuan-13B
【Model Scope】
预训练模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Base/
对话模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/
多领域超越ChatGPT
老规矩,先提纲挈领地说一下Baichuan-13B的基本个“模”资料:
中英双语大模型,130亿参数,在1.4万亿token数据集上训练,完全开源、免费可商用。
1.4万亿ztoken这个训练数据量,超过LLaMA-13B训练数据量的40%,是当前开源的13B尺寸模型世界里,训练数据量最大的模型。
此外,Baichuan-13B上下文窗口长度为4096——这就不得不提到其与7B版本完全不同的编码方式。
7B版本采用RoPE编码方式,而13B使用了ALiBi位置编码技术,后者能够处理长上下文窗口,甚至可以推断超出训练期间读取数据的上下文长度,从而更好地捕捉文本中上下文的相关性,让预测或生成更准确。
作为一款中英文双语大模型,Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料,从而在中英两种语言上都有不俗表现。
官方介绍,为了保证模型的纯净度,Baichuan-13B-Base和Baichuan-13B-Chat没有针对任何benchmark测试进行专项优化,具有更高的效能和可定制性。
为什么要完全开源、可商用?
正如我们刚才提到的,这次百川智能推出的Baichuan-13B-Base是对学术研究完全开放。
不仅如此,所有开发者均可通过邮件向百川智能申请授权,在获得官方商用许可后即可免费商用。
而且据官方的说法,百川智能是为了降低使用的门槛,才同时开源了Baichuan-13B-Chat的INT8和INT4两个量化版本。
这样一来,在近乎无损的情况下,便可以将模型部署在如3090等消费级显卡上。
想必很多小伙伴就要问了,百川智能为什么要走这么一条路?
其实如果看下Meta在大模型上的开源之路,便可窥知一二。
我们都知道大模型在训练的成本极高,因此像OpenAI和谷歌两大科技巨头最初选择的是闭源的“路数”,它们为的就是以此保证自己的优势。
而Meta后来所推出的LLaMa则与之“背道而驰”,但所迸发出来的潜力却是有目共睹——
迅速吸引大批开发者,在LLaMa基础上迭代出了各种ChatGPT的替代品,甚至在性能的表现上是可以匹敌GPT-3.5的那种。
加之业界对大模型未来发展态势已经达成了一个共识:
类似安卓和iOS,将会是开源和闭源共存的状态。
因此,开源在大模型的发展中已然成为一股不可或缺的中坚力量。
……
那么你对于王小川的新大模型,有何看法呢?
【HuggingFace】
预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
【GitHub】
https://githuB.com/Baichuan-inc/Baichuan-13B
【Model Scope】
预训练模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Base/
对话模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
量子行星信息科技有限公司是一家专注提供人工智能解决方案的产品服务型公司,总部位于北京。