社区供稿|GPT-4 与国产模型,大!横!评!
发布时间:2024年06月06日
从2022年10月底ChatGPT横空出世,到去年3月百模大战兴起,一年多时间过去,许多家都宣称自己的大模型水平来到第一梯队,更不乏有所谓全面超越GPT的,列出来的跑分也是各种吊打。
在上海人工智能实验室上周刚刚公布的测评榜单上,GPT-4依旧独领风骚,排名第一,不过国产阵营已经大踏步追了上来,差距逐步缩小。那么国产大模型到底来到了什么样的水平,理论跑分和实践效果有多大的差距?带着这些问题我们横评三款公认水平比较高的国产大模型,分别是智谱GLM-4,文心一言4.0和字节的豆包,测评基准则是GPT-4。
一、测评标准由于是主观测评(毕竟客观测评看跑分就够了),所以我们按照10分满分制做了一个测评量表如下。体验环境:网页版打分标准:既然是测试,量化尺度还是要讲的,每轮回答效果十分制打分。
分数 |
解释 |
10分 |
理想回答,全面满足我的需求 |
5分 |
有价值及格线,没有完全满足,还需做得更好 |
1分 |
你说你懂我,可你又不回答我 |
0分 |
你不懂我 |
二、基础测试联网查询、数据分析、多模态文生图、长文档解读、还有智能体,这些基本能力测试是国产大模型刷分最多的地方,那么在实际案例里它们的表现如何呢?1、联网查询大模型历来存在幻觉、实时性不足等问题。高级联网功能允许模型通过自主搜索查询,获取更新更准确的信息,提高答案的准确性和实时性。个人偏好听歌演唱会,来2道这方面的问答看看~问题1:杭州周杰伦演唱会门票价格2月2号在某麦开售即秒没,大家真的太有钱了……看看模型能否回答最新场次票价?GLM4:GPT4:
文心4.0:豆包:各家都成功调用了联网搜索功能,均得10分,豆包的格式真的优雅~问题2:旋转保龄《老婆不在家》歌词中,她更喜欢她的___和___?答:Beyond 和 刘德华
GLM4:GPT4:文心4.0:
豆包:测试了一首我很喜欢但是相对冷门的歌词,除了豆包莫名其妙判断不恰当以外,其他3家再积10分~本环节分数如下2、数据分析最期待的新功能!数据分析也算是各类文职必备技能了,算数统计找归因,属实令人头秃,让大模型帮你干活~Prompt:统计: requester为Other的Number of Requests,按Country为Germany的进行排列,折线图形式(附件数据来源:google-government-removal-requests.csv)数据分析功能目前仅GPT4和GLM4支持。这个需求来自一位法师朋友,她的原始数据非常杂乱,想要提取信息需要费点劲看到两家的输出流下了感激的泪水
GLM4:
GPT4:文心4.0:文心无法上传csv数据,不具备分析能力,本轮不能完成任务。豆包:
豆包无法上传文档,不具备分析能力,本轮不能完成任务。本环节分数如下3、多模态-文生图文生图代表的多模态能力被普遍认为是大模型的一个重点指标,大家表现怎么样呢?Prompt1-1:画一个动画角色史努比的头像形象,需要冲浪动作,背景是海浪,画风是动画。
GLM4:
GPT4:
文心4.0: 豆包:
Prompt1-2:换成史努比在房子上躺着睡觉。
GLM4:
GPT4:文心4.0:豆包:
该形象的所属公司一直很关注版权问题,各家模型在合规上都较满意•一轮最佳 GLM4,配色精准,动作领会,不过尾巴被画上了脚,仍有提升空间,计8分;GPT4挺适合做头像,然而黄狗不符需求,计6分;至于文心和豆包……我已经尽力从四图挑选像狗的了……计2分•二轮最佳 GPT4-Dalle3的配色恢复了,好很多,计8分GLM4继续稳定发挥角色理解,不过这轮的狗头有点抽象了,动作也是趴着,问题需要关注,计5分;文心和豆包……这轮的图更难为人了……计0分。Prompt2:《Her》中主角形象,画个波点画
GLM4:
GPT4:
文心4.0:很抱歉,存在暂不支持的特殊符号和英文。
豆包:抱歉,作为语言模型,我无法为你直接绘制图像。《Her》是一部2013年的电影,讲述了男主角西奥多和人工智能萨曼莎之间的爱情故事。你可以尝试在搜索引擎上输入“电影Her 主角波点画”来获取相关的图片。本题各家都很差,GLM4和Dalle只能给绘图意图1分,对于电影、波点画等理解不够好,文心和豆包完全不能满足,0分。本环节分数如下4、文档解读提炼一本教材的核心内容,来看看各家效果如何。提问:归纳一下讲的什么内容(附件数据来源:电工学(电工技术)第七版上册.pdf)
GLM4:GPT4:
文心4.0:豆包:豆包无法上传文档,本轮不能完成任务。受限文档长度各家解读都不完整,文心4.0只能读取前100页,而且有点学杂了;GPT4归纳比文心精炼;GLM4信息更丰富,语言精炼不啰嗦,没有错字;豆包依然因不具备能力而0分。本环节分数如下5、智能体最近大火的智能体Agent能力,四个模型中有三个已经具备。写一个拜年大全,主要衡量标准是能够自主带上当年的生肖内容。初始界面:GLM4:GPT4:豆包:智能体配置:
GLM4:GPT4:豆包:效果:GLM4:GPT4:豆包:
· 初始界面——三家都可以提供基础的一句话描述,帮助生成智能体
· 配置过程——GLMs输入描述文字后,生成的配置可以自行修改;GPTs会进一步多轮询问细节,也可到配置中自己手动修改;豆包最为直接,一步生成无需修改(主要是也没有改的地方)
(为对齐豆包没有配置功能,GLMs和GPTs的智能体配置自动生成后不做修改;由于豆包限制无法上传知识库,故谐音梗也不对豆包做要求)整体效果来看,GPTs最佳,投喂谐音梗融会贯通,句式偏单一;GLMs默认生成的配置可用性有待提升,对谐音指令没有理解,品质跟豆包差不多。GLMs配置经过手动修改后,效果提升明显,基本达到了GPTs的默认水平。本环节最终计分排名如下:GPTs最好,因默认配置高可用、一次过关得10分;GLMs鉴于修改后品质有提升,得7分;豆包因为不能改配置,效果把控还得从抽象的描述语下手优化,计6分;文心不具备功能,不得分。新功能效果最终得分可以看到智谱GLM-4 各项新功能与GPT4对齐很紧凑,基础能力差距不大,但智能体水平明显落后。文心一言4.0和豆包或多或少在某些功能上有所缺失,需要补齐。三、应用实践我们从日常生活、工作选了一些真实需求场景,不加辅助也没有上下文干预,直接对大模型提问,来看看它们的表现吧~1、文本生成,让模型来句吉利话年关将至,不论走亲访友,还是发朋友圈,都少不了顺口的祝福语。国内大模型本地化都好过GPT4,具体表现看下图!GLM4:GPT4:文心4.0:豆包:祝福语环节各家都有瑕疵,评判标准按整句都有压上韵、且能给到更长,各家分数如下2、语义理解,来一轮常识快问快答~问问用户画像?四家能理解需求,GLM-4主动调用搜索查了资料,信息量更大,综合提高了内容置信程度,是我理想的10分回答。其他三家显得有点泛了。GLM4:GPT4:文心4.0:豆包:等等,还有老干妈卫衣??惊呆了!下一题,今年元宵节几号?答:2024年2月24日于模型而言有一个大坑,“今年是哪年”本轮豆包获胜10分。GPT4又是一通操作,拉出python算日历,“occurs 15 days after Lunar New Year”这套算法可给各位看笑了,本地化还是不行呀。GLM4起码知道2024年,但是查不清数,GPT4和GLM4勉强得1分。文心还是不太能理解今夕何夕,严格讲不算对,5分很勉强了。GLM4:GPT4:文心4.0:豆包:本环节分数如下3、数理计算,小孩嫌大人愁的数学题来了!先请出高考客观题,众所周知模型很不擅长这些,试卷答案也不给解题步骤,所以模型没有小抄可学~寒假期末考请听题!开胃甜点~问:圆C的方程是x(2)+y(2)+2x+4y=0,则其圆心坐标是 ,半径是 答:(-1,-2),本轮全胜~还小试了一下换了个数,避免有模型储备原题,发现还是可以正常解的,各家仍是正确结果。GLM4:GPT4:文心4.0:豆包:再来!问:已知正数a,b,c满足 ,则的最大值为 答:-2GLM4与GPT4本轮平手,都满分,文心和豆包一通操作猛如虎,轮到输出嘛,0分……GLM4:GPT4:文心4.0:豆包:高考大题!问:设a∈R,函数f(x)=|x(2)+ax|,(1)若f(x)在[0,1]上单调递增,求a的取值范围;(2)记M(a)为f(x)在[0,1]上的最大值,求M(a)的最小值.答:(1)a≥0或a≤-2;(2)最小值本题分值:10分,第一小题回答部分答案计3分,完整计5分,第二小题5分GLM4:GPT4:文心4.0:豆包:本环节计分排名如下:4、代码解释,编程能力强不强,实践出真知~用代码画一个一箭穿心Python画心已经玩过很多了,一箭穿心如何?代码能跑出来的期望效果如下,看哪家最接近~GLM-4对比其他家美观一些,就是这个一箭穿心跟我想得不太一样,复制代码单独跑验证一致。GPT4起码画出了心,就是穿得很迷离,而文心和豆包的心都不知道哪去了……GLM4:GPT4:文心4.0:豆包:本轮效果都不是很满意,跟穿心好像没啥关系GLM4和GPT4好在还有个心,而GPT4那飘逸的穿法也让人印象深刻,GLM4明确画出了箭头元素,得6分,GPT4得5分。文心、豆包都没达到基本效果,0分~应用实践最终得分综合来看,GLM-4在各个场景表现可圈可点,稳如四边形战士;不得不提文心4.0的表现真的很牛,唯一一家高考数学大题能拿下完整第一小题得分的学霸,却在代码这块翻车了;豆包的常识查询目前最好,“今年”这个陷阱优雅的越过;GPT4虽说是最强大模型,但多少还是有点水土不服,高昂的价格加上国内使用限制,目前来看用户也许有了新选择……四、三个月能发生什么?智谱的GLM-4表现可以说可圈可点,作为1月刚更新的新模型,我们特地拿它和3个月前发布的,目前依旧在产品端上线中的GLM-3做了个对比,也算是让大家直观感受到国产大模型的进步速度吧!1、文本生成上面试了祝福语,在这写点小情书吧~上一代模型GLM-3 给了一大段,情绪表达相当直接。在GLM-4上,能选的句子更多,量大管饱多场景,兄弟你成长了很多嘛~GLM3:GLM4:2、语义理解问题1:车厘子Santina是杂交品种么,原产地是哪里车厘子成为了近两年的新年货,看看模型是否了解品种知识上一代模型GLM-3的知识库显然没有存储车厘子品种的信息,对Santina的培育情况并不了解,还是按欧洲甜樱桃来回复、GLM-4 主动联网查询,获得了正确结果,信息量很大。GLM3:GLM4:再来一题:"I firmly believe that respect is a lot more important, and a lot greater, than popularity",帮我搜一下这句是谁的名言?GLM-3 回答了艾森豪威尔,经验证是错误的,还是有点幻觉在;GLM-4 厉害很多,又是联网功能加了分。GLM3:GLM4:3、数理计算继续上数学大题~记 ABC 的内角 A,B,C 的对边分别为 a,b,c,已知(1)若,求 B;
(2)求的最小值.上一代模型GLM-3 对三角函数还是不太擅长,两道小题都没能答对;GLM-4 完成了第一小题,结合前面各家横评,看来数学大题的第二小题始终是大模型的难关!GLM3:GLM4:数学算累了,来点化学题换换脑子问:足量铜与一定量浓硝酸反应,得到硝酸铜溶液和NO2、N2O4、NO的混合气体,这些气体与1.68L O2(标准状况)混合后通入水中,所有气体完全被水吸收生成硝酸。若向所得硝酸铜溶液中加入5 mol/L NaOH溶液至Cu2+恰好完全沉淀,则消耗NaOH溶液的体积是( )(A)60 mL (B)45 mL (C)30 mL (D)15 mL答:A上一代模型GLM-3 给了一连串的解题步骤,结果还是算错了;GLM-4 解题调用了Python计算,解题思路清晰,确实做到了提升。GLM3:GLM4:4、代码解释继续试一下一箭穿心~上一代模型GLM-3不能在界面内模拟,自我纠错给了两版代码实际验证都不是需求图形;GLM-4对比美观太多,穿心马马虎虎有个箭尾,好在复制代码单独跑效果也是一样的。GLM3:GLM4:换个新玩法,代码画一个能走的时钟用Turtle画一个带显示星期功能,能按当前时间动的时钟期望效果如下,显示能动的表盘动画很尴尬,上一代模型GLM-3 把需求识别成普通的画图了;GLM-4 受限无法直接运行Turtle图形库,给出的代码跑了一下,真不错。GLM3:GLM4:小结:对比上一代模型,从这些基础能力能看得出 GLM4 下了不少功夫,各方面均提升显著。考虑到是三个月迭代的,这个速度也让人印象很深刻了。五、结论综合来看,GLM-4表现可圈可点,全面对标GPT的功能布局,可以用六边形战士来形容;豆包语义理解最强,更适用在生活化问答场景;文心虽然在代码生成解释环节输掉,整体实力不容小觑;GPT4的整体实力非常强,但应付国内的生产生活场景,还是有点吃力。GLM-4的新功能中,让我印象深刻、帮助最大的,当属“数据分析”,对比同功能的GPT分析效果一致;还可以调教智能体,不会编程也能轻松拥有专属大模型;联网查询帮助也很大,实际体验效果不凡。对比智谱AI上一代模型,GLM-4的各项基础模型能力做到了全面强化,进步明显,在“数理计算”和“代码生成”有质的提升。在我们之前的认知里,ChatGPT都是绝对的王者,当我们亲自体验它时,却发现在本地化表现并没有达到高预期,对于中文普通用户而言,我们使用ChatGPT仍有不小的门槛,“大模型元年”竞争如此激烈,在认清差距、努力提升之余,不知道国产大模型交上的这份答卷,是否也合你的心意?
出自:https://mp.weixin.qq.com/s/vx6T5IPsuYlNtaoPHR0kGg
ChartCube图表魔方,在线图表制作工具,拖拽之间快速搞定图表制作。