如何看待微软最新论文揭秘ChatGPT参数量只有20B?
发布时间:2024年06月06日
昨天下班的时候,群友在交流群中发了一张截图,然后群炸了。
什么ChatGPT只有20B参数?
Paper: https://arxiv.org/pdf/2310.17680.pdf
如果消息属实,让我们简单聊一聊,省流版:
1、国内外大模型差距比预估的要大;
2、做大模型落地的企业信心应该更足;
3、国内后面可能大多数企业都做20B左右的模型;
4、LLMer,在效果不好的时候,少了一个借口。(借口-1)
国内外大模型差距比预估的要大
一直都以为ChatGPT的参数量起码要在100B以上,但没想到只有20B。
「但值得注意的是,这里所谓的ChatGPT特指gpt-3.5-turbo接口。」我们理性分析一波,gpt-3.5-turbo是经过升级&加速的版本(效果也不如之前),所以应该与一开始的ChatGPT不是同一模型,那么20B也不是没有可能。
并且gpt-3.5-turbo接口的价格是text-davinci-003接口(默认175B,猜的)的十分之一。
如果仅有20B的话,那么国内的大模型与GPT系列模型的差距可能比想象中的还要大,毕竟开源同等级的模型真的打不过(虽然部分榜单遥遥领先,但真实体验真不如)。
做大模型落地的企业信心应该更足
如果真的只有20B,并且达到现在这种效果。那么国内做大模型落地的企业,应该更开心,信心更足。因为20B量级参数的大模型,无论是训练,还是部署,对于企业来说都是可以承受的。
已经不是那么遥不可及。
并且不是高通骁龙CPU都能运行13B的大模型了嘛。
图片来自:https://zhuanlan.zhihu.com/p/663281324
国内后面可能大多数企业都做20B左右的模型
20B参数就足够的话,那么可能大多数企业就不会再往更大追赶了。(毕竟现在很多还是在做13B左右的模型,真正超过50B的都不多)
做更大可能也是徒劳,不过更大模型可以帮助小模型做蒸馏,但成本也是巨大的,呈指数级增长。从活下来的层面来看,做到20B就够了。
但依然要有梦想,现在正在做超大规模的大模型的企业(百度、百川、讯飞等等等)依然会往极致追赶。
而我才是大多数中的一员。
LLMer,在效果不好的时候,少了一个借口
将所有做大模型的算法工程师称为LLMer,那么我们今后效果不好,就不能再说我们参数量不够了。从原来的参数和数据都没法跟别人比,就进变成了数据没法跟别人比。
借口-1。
PS:现在真的openai有一点风吹草动,国内外大模型格局都可能发生翻天覆地的变化。
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
使用 FLUX.1 Pro 免费在线输入文本并轻松创建AI图像。