C-Eval:热门AI 语言模型的中文水平能力测试

热门AI 语言模型的中文水平能力排行榜

你知道当前 AI 语言模型在中文中能力水平如何吗?很多项目在基于中文做应用级的AI项目,C-Eval是一个全面的中文基础模型评估套件,包含了 13948 个多项选择题,涵盖了 52 个不同的学科和四个难度级别,对当前常见模型进行了一个全面准确的排名,有兴趣可以瞧瞧。

C-Eval:热门AI 语言模型的中文水平能力测试
#模型名称发布机构测试时间平均平均(Hard)STEM社会科学人文科学其他
0GPT-4OpenAI2023/5/1568.754.967.177.664.567.8
1ChatGPTOpenAI2023/5/1554.441.452.961.850.953.6
2Claude-v1.3Anthropic2023/5/1554.23951.961.752.153.7
3Claude-instant-v1.0Anthropic2023/5/1545.935.543.153.844.245.4
4GLM-130BTsinghua2023/5/1540.330.334.848.743.339.8
5Bloomz-mtBigScience2023/5/153930.435.345.140.538.5
6LLaMA-65BMeta2023/5/1538.831.737.845.636.137.1
7ChatGLM-6BTsinghua2023/5/1534.523.130.439.637.434.5
8Chinese LLaMA-13BCui et al.2023/5/1533.327.331.637.233.632.8
9MOSSFudan2023/5/1531.12428.636.83130.3
10Chinese Alpaca-13BCui et al.2023/5/1526.727.12627.227.826.4
源地址:https://cevalbenchmark.com/static/leaderboard_zh.html