首页 > Ai资讯 > Ai科技 > 中文大模型能力评测榜单

中文大模型能力评测榜单

发布时间:2024年06月06日

  • 目前已囊括16个大模型,覆盖chatgpt、百度文心一言、阿里通义千问、讯飞星火、minimax、tigerbot等商用模型, 以及belle、chatglm6b、ziya、guanaco、Phoenix、linly等开源大模型。
  • 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
  • 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。
  • 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行!

为什么做榜单?

  • 大模型百花齐放,也参差不齐。不少媒体的宣传往往夸大其词,避重就轻,容易混淆视听;而某些公司为了PR,也过分标榜自己大模型的能力,动不动就“达到chatgpt水平”,动不动就“国内第一”。 所谓“外行看热闹,内行看门道”,业界急需一股气流,摒弃浮躁,静下心来打磨前沿技术,真真正正用技术实力说话。这就少不了一个公开、公正、公平的大模型评测系统,把各类大模型的优点、不足一一展示出来。 如此,大家既能把握当下的发展水平、与国外顶尖技术的差距,也能更加清晰地看明白未来的努力方向,而不被资本热潮、舆论热潮所裹挟。
  • 对于产业界来说,特别是对于不具备大模型研发能力的公司,熟悉大模型的技术边界、高效有针对性地做大模型技术选型,在现如今显得尤为重要。 而一个公开、公正、公平的大模型评测系统,恰好能够提供应有的助力,避免重复造轮子,避免因技术栈不同而导致不必要的争论,避免“鸡同鸭讲”。
  • 对于大模型研发人员,包括对大模型技术感兴趣的人、学术界看中实践的人,各类大模型的效果对比,反应出了背后不同技术路线、技术方法的有效性,这就提供了非常好的参考意义。 不同大模型的相互参考、借鉴,帮忙大家躲过不必要的坑、避免重复实验带来的资源浪费,有助于整个大模型生态圈的良性高效发展。

最近更新

  • [2023/6/17] 发布v1.2版本评测榜单
    • 新增2个大模型:tigetbot-7b官网、linly-chatflow-13b
    • 说明做评测榜单的初衷
  • [2023/6/10] 发布v1.1版本评测榜单
    • 新增3个大模型:minimax、guanaco、Phoenix-7b
    • 新增表格问答评测维度,作为阅读理解能力的细分项
  • [2023/6/4] 发布v1版本评测榜单

⚓TODO

  • 将更多大模型加入评测:gpt4、Claude、谷歌Bard、复旦moss、falcon、羊驼、360智脑等等
  • 增加开源大模型的授权协议,注明能否商用
  • 引入更多维度的评测:数学能力、代码能力、开放域问答、多轮对话、头脑风暴、翻译……
  • 评测维度更细分,比如信息抽取可以细分时间实体抽取能力、地址实体抽取能力……
  • 海纳百川,整合各类评测榜单,扩充细分领域榜单(比如教育领域、医疗领域)
  • 加入更多评测数据,使得评测得分越来越有说服力

大模型基本信息

大模型 机构 类别 链接
chatgpt-3.5 openai 商用 chat.openai.com
文心一言 百度 商用 yiyan.baidu.com
chatglm官方 智谱AI 商用 chatglm.cn
讯飞星火 科大讯飞 商用 xinghuo.xfyun.cn/desk
阿里通义千问 阿里巴巴 商用 tongyi.aliyun.com
minimax minimax 商用 api.minimax.chat
tigerbot-7b官网 虎博科技 商用/开源 tigerbot.com/
chatglm-6b 清华大学&智谱AI 开源 github.com/THUDM/ChatGL
belle-llama-7b-2m 链家科技 开源 github.com/LianjiaTech/
BELLE-on-Open-Datasets 链家科技 开源 github.com/LianjiaTech/
belle-llama-13b-2m 链家科技 开源 github.com/LianjiaTech/
belle-llama-13b-ext 链家科技 开源 github.com/LianjiaTech/
Ziya-LLaMA-13B-v1 IDEA研究院 开源 mp.weixin.qq.com/s/IeXg
guanaco-7b JosephusCheung 开源 huggingface.co/Josephus
phoenix-inst-chat-7b 港中文 开源 github.com/FreedomIntel
linly-chatflow-13b 深圳大学 开源 github.com/CVI-SZU/Linl

排行榜

1 综合能力排行榜

综合能力得分为分类能力、信息抽取能力、阅读理解能力三者得分的平均值。

类别 大模型 总分 排名
商用 chatgpt-3.5 93.8 1
开源 belle-llama-13b-2m 79.2 2
商用 chatglm官方 76.9 3
商用 讯飞星火 76.6 4
开源 belle-llama-13b-ext 71.9 5
开源 phoenix-inst-chat-7b 71.8 6
开源 BELLE-on-Open-Datasets 70.9 7
开源 belle-llama-7b-2m 70.4 8
开源 Ziya-LLaMA-13B-v1 70.2 9
开源 linly-chatflow-13b 69.9 10
商用/开源 tigerbot-7b官网 68.2 11
商用 minimax 67.4 12
开源 chatglm-6b 66.1 13
商用 文心一言 60.6 14
开源 guanaco-7b 49.9 15
商用 阿里通义千问 49.4 16

2 分类能力排行榜

类别 大模型 分类能力 排名
商用 chatgpt-3.5 98 1
商用 chatglm官方 82 2
开源 BELLE-on-Open-Datasets 82 3
开源 belle-llama-13b-2m 82 4
开源 phoenix-inst-chat-7b 82 5
开源 belle-llama-7b-2m 76 6
开源 belle-llama-13b-ext 74 7
商用/开源 tigerbot-7b官网 74 8
开源 Ziya-LLaMA-13B-v1 72 9
开源 linly-chatflow-13b 72 10
商用 讯飞星火 70 11
商用 minimax 68 12
开源 chatglm-6b 66 13
开源 guanaco-7b 54 14
商用 文心一言 48 15
商用 阿里通义千问 44 16

3 信息抽取能力排行榜

类别 大模型 信息抽取能力 排名
商用 chatgpt-3.5 88 1
商用 讯飞星火 79 2
商用 chatglm官方 76 3
开源 belle-llama-13b-2m 75 4
商用 文心一言 71 5
开源 chatglm-6b 69 6
商用/开源 tigerbot-7b官网 68 7
开源 belle-llama-13b-ext 65 8
开源 belle-llama-7b-2m 64 9
开源 linly-chatflow-13b 63 10
开源 BELLE-on-Open-Datasets 62 11
开源 Ziya-LLaMA-13B-v1 62 12
开源 phoenix-inst-chat-7b 62 13
商用 minimax 61 14
商用 阿里通义千问 47 15
开源 guanaco-7b 45 16

4 阅读理解能力排行榜

4.1 表格问答排行榜(阅读理解细分能力)

表格问答作为阅读理解细分能力,单独列出,但不计入综合能力评分。 专门考查大模型对表格的理解分析能力,常用于数据分析。

类别 大模型 表格问答能力 排名
商用 chatgpt-3.5 93 1
开源 belle-llama-13b-2m 75 2
商用 讯飞星火 69 3
开源 belle-llama-13b-ext 69 4
商用 chatglm官方 68 5
开源 Ziya-LLaMA-13B-v1 65 6
开源 chatglm-6b 59 7
开源 belle-llama-7b-2m 59 8
开源 BELLE-on-Open-Datasets 48 9
商用 阿里通义千问 39 10
商用 文心一言 38 11

各项能力评分

评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。

类别 大模型 分类能力 信息抽取能力 阅读理解能力 综合能力
商用 chatgpt-3.5 98 88 95.3 93.8
商用 文心一言 48 71 62.7 60.3
商用 chatglm官方 82 76 72.7 76.9
商用 讯飞星火 70 79 80.7 76.6
商用 阿里通义千问 44 47 57.3 49.4
商用 minimax 68 61 73.3 67.4
开源 chatglm-6b 66 69 63.3 66.1
开源 belle-llama-7b-2m 76 64 71.3 70.4
开源 BELLE-on-Open-Datasets 82 62 68.7 70.9
开源 belle-llama-13b-2m 82 75 80.7 79.2
开源 belle-llama-13b-ext 74 65 76.7 71.9
开源 Ziya-LLaMA-13B-v1 72 62 76.7 70.2
开源 guanaco-7b 54 45 50.7 49.9
开源 phoenix-inst-chat-7b 82 62 71.3 71.8
商用/开源 tigerbot-7b官网 74 68 62.7 68.2
开源 linly-chatflow-13b 72 63 74.7 69.9

原始评测数据

见本项目github:

GitHub - jeinlee1991/chinese-llm-benchmark: 中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!github.com/jeinlee1991/chinese-llm-benchmark

评测样本示例

分类评测样本 信息抽取评测样本 阅读理解评测样本
请分类以下5种水果:香蕉、西瓜、苹果、草莓、葡萄。 HR: 你好,我是XYZ公司的招聘主管。我很高兴地通知你,你已经通过了我们的初步筛选,并且我们希望邀请你来参加面试。候选人:非常感谢,我很高兴收到你们的邀请。请问面试的时间和地点是什么时候和哪里呢?HR: 面试的时间是下周二上午10点,地点是我们公司位于市中心的办公室。你会在面试前收到一封详细的面试通知邮件,里面会包含面试官的名字、面试时间和地址等信息。候选人:好的,我会准时出席面试的。请问需要我做哪些准备工作呢?HR: 在面试前,请确保你已经仔细研究了我们公司的业务和文化,并准备好了相关的问题和回答。另外,请务必提前到达面试现场,以便有足够的时间了解我们的公司和环境。候选人:明白了,我会尽最大努力准备好的。非常感谢你的邀请,期待能有机会加入贵公司。HR: 很高兴能和你通话,我们也期待着能和你见面。祝你好运,并期待下周能见到你。基于以上对话,抽取出其中的时间、地点和事件。 牙医:好的,让我们看看你的牙齿。从你的描述和我们的检查结果来看,你可能有一些牙齦疾病,导致牙齿的神经受到刺激,引起了敏感。此外,这些黑色斑点可能是蛀牙。病人:哦,真的吗?那我该怎么办?牙医:别担心,我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病,然后清除蛀牙并填充牙洞。在此过程中,我们将确保您感到舒适,并使用先进的技术和材料来实现最佳效果。病人:好的,谢谢您,医生。那么我什么时候可以开始治疗?牙医:让我们为您安排一个约会。您的治疗将在两天后开始。在此期间,请继续刷牙,使用牙线,并避免吃过于甜腻和酸性的食物和饮料。病人:好的,我会的。再次感谢您,医生。牙医:不用谢,我们会尽最大的努力帮助您恢复健康的牙齿。基于以上对话回答:病人在检查中发现的牙齿问题有哪些?
将下列单词按词性分类。狗,追,跑,大人,高兴,树 给定以下文本段落,提取其中的关键信息。今天早上,纽约市长在新闻发布会上宣布了新的计划,旨在减少治安问题。该计划包括增加派遣警察的人数,以及启动社区倡议,以提高居民对警察工作的支持度。 文化艺术报讯 国务院办公厅发布关于2023年部分节假日安排的通知,具体内容如下:元旦:2022年12月31日至2023年1月2日放假调休,共3天。春节:1月21日至27日放假调休,共7天。1月28日(星期六)、1月29日(星期日)上班。清明节:4月5日放假,共1天。劳动节:4月29日至5月3日放假调休,共5天。4月23日(星期日)、5月6日(星期六)上班。端午节:6月22日至24日放假调休,共3天。6月25日(星期日)上班。中秋节、国庆节:9月29日至10月6日放假调休,共8天。10月7日(星期六)、10月8日(星期日)上班。基于以上信息回答:2023年五一假期怎么放假。
将下列五个词分为两个组别,每个组别都有一个共同点:狗、猫、鸟、鱼、蛇。 在给定的短文中找出三个关键词。西方的哲学历史可上溯至古希腊时期,最重要的哲学流派包括柏拉图学派、亚里士多德学派和斯多葛学派。 基于以下表格,请问张三的考勤情况员工姓名,日期,上班时间,下班时间,是否迟到,是否早退,是否请假张三,1月1日,8:30,17:30,否,否,否李四,1月1日,9:00,18:00,是,否,否王五,1月1日,8:00,16:30,否,是,否赵六,1月1日,8:30,17:00,否,否,是张三,1月2日,8:00,17:00,否,否,否李四,1月2日,8:30,17:30,否,否,否王五,1月2日,9:00,18:00,是,否,否赵六,1月2日,8:30,17:00,否,否,是
给定一组文本,将文本分成正面和负面情感。举例文本:这部电影非常出色,值得推荐。我觉得导演做得很好。这场音乐会真是个灾难,我非常失望。 从以下诗句中提取人物名称:两个黄鹂鸣翠柳,一行白鹭上青天。 对于给定的问答对,判断问题是否被正确回答问题:地球是第几颗行星?答案:地球是第三颗行星。
将以下10个单词分类为动物或植物。树木、狮子、玫瑰、草地、松鼠、猴子、蘑菇、兔子、山羊、香蕉 明天天气怎么样?广州明天最冷多少度?广东大后天最暖多少度?北京冷不冷?提取出上述句子中的地理位置实体 根据以下文本回答问题:什么是能量守恒定律?物理学是自然科学的一个重要分支,研究自然界的物质、能量、空间和时间等基本概念。在物理学的研究中,科学家们探索了宇宙的奥秘,从微观粒子到宏观天体的各个方面都进行了深入研究。在物理学中,一个重要的概念是能量守恒定律。能量守恒定律指出,一个孤立系统的总能量在任何时间都是不变的。也就是说,能量不能被创造或摧毁,只能被转化成其他形式。例如,当一个物体被提起并释放时,它的势能被转化为动能,使得物体开始运动。
…… …… ……

大模型输出结果示例

prompt chatgpt3.5 百度 ……
将下列单词按词性分类。狗,追,跑,大人,高兴,树 好的,以下是这些单词按照词性分类后的结果:名词:狗、大人、树动词:追、跑形容词:高兴 动物类别:狗动作类别:追动作类别:跑情感类别:高兴植物类别:树 ……
从以下诗句中提取人物名称:两个黄鹂鸣翠柳,一行白鹭上青天。 这句诗出自唐代诗人杜甫的《绝句》,并没有明确提到人物名称。这句诗主要是在描绘自然景色,通过形象生动的语言来表现春天的美丽景象。诗中提到“两个黄鹂”,“一行白鹭”,他们是动物而非人物名称。黄鹂是一种鸟类,它们身体鲜黄色,嘴巴呈钩形,叫声清脆悦耳;白鹭是另一种水鸟,身体白色,嘴巴细长,善于捕捉鱼类等。杨婉这句诗意境深远,很好地表现了大自然的美丽和神奇。 人物名称:黄鹂、白鹭 ……
…… …… …… ……

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。