datasets, baselines, pre-trained models, corpus and leaderboard
中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。
我们会选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。
** Update 2026-02-06: **
SuperCLUE官网更新(2026-02-06): www.SuperClueAI.com
中文大模型基准测评2025年年度报告(New!):中文大模型基准测评2025年年度报告
State Of Chinese AI 2025(New!):State Of Chinese AI 2025
优秀的国产深度学习框架PaddlePaddle中的NLP核心项目:PaddleNLP现以全面支持CLUE基准
CLUE论文被计算语言学国际会议 COLING2020高分录用
| 模型 | Score | 参数 | AFQMC | TNEWS' | IFLYTEK' | CMNLI | CLUEWSC2020 | CSL |
|---|---|---|---|---|---|---|---|---|
| BERT-base | 68.77 | 108M | 73.70 | 56.58 | 60.29 | 79.69 | 62.0 | 80.36 |
| BERT-wwm-ext | 68.75 | 108M | 74.07 | 56.84 | 59.43 | 80.42 | 61.1 | 80.63 |
| ERNIE-base | 68.55 | 108M | 73.83 | 58.33 | 58.96 | 80.29 | 60.8 | 79.1 |
| RoBERTa-large | 71.70 | 334M | 74.02 | 57.86 | 62.55 | 81.70 | 72.7 | 81.36 |
| XLNet-mid | 68.58 | 200M | 70.50 | 56.24 | 57.85 | 81.25 | 64.4 | 81.26 |
| ALBERT-xxlarge | 71.04 | 235M | 75.6 | 59.46 | 62.89 | 83.14 | 61.54 | 83.63 |
| ALBERT-xlarge | 68.92 | 60M | 69.96 | 57.36 | 59.50 | 81.13 | 64.34 | 81.20 |
| ALBERT-large | 67.91 | 18M | 74 | 55.16 | 57.00 | 78.77 | 62.24 | 80.30 |
| ALBERT-base | 67.44 | 12M | 72.55 | 55.06 | 56.58 | 77.58 | 64.34 | 78.5 |
| ALBERT-tiny | 62.61 | 4M | 69.92 | 53.35 | 48.71 | 70.61 | 58.5 | 74.56 |
| RoBERTa-wwm-ext | 70.10 | 108M | 74.04 | 56.94 | 60.31 | 80.51 | 67.8 | 81.0 |
| RoBERTa-wwm-large | 72.83 | 330M | 76.55 | 58.61 | 62.98 | 82.12 | 74.6 | 82.13 |
注:AFQMC:蚂蚁语义相似度(Acc);TNEWS:文本分类(Acc);IFLYTEK:长文本分类(Acc); CMNLI: 自然语言推理中文版;
COPA: 因果推断; WSC:CLUEWSC2020,即Winograd模式挑战中文版; CSL: 中国科学文献数据集; Score总分是通过计算6个数据集得分平均值获得;
'代表对原数据集使用albert_tiny模型筛选后获得,数据集与原数据集不同,从而可能导致在这些数据集上albert_tiny表现略低.
| 模型 | Score | 参数 | CMRC2018 | CHID | C3 |
|---|---|---|---|---|---|
| BERT-base | 72.71 | 108M | 71.60 | 82.04 | 64.50 |
| BERT-wwm-ext | 75.12 | 108M | 73.95 | 82.90 | 68.50 |
| ERNIE-base | 73.69 | 108M | 74.7 | 82.28 | 64.10 |
| RoBERTa-large | 76.85 | 334M | 78.50 | 84.50 | 67.55 |
| XLNet-mid | 72.70 | 209M | 66.95 | 83.47 | 67.68 |
| ALBERT-base | 68.08 | 10M | 72.90 | 71.77 | 59.58 |
| ALBERT-large | 71.51 | 16.5M | 75.95 | 74.18 | 64.41 |
| ALBERT-xlarge | 75.73 | 57.5M | 76.30 | 80.57 | 70.32 |
| ALBERT-xxlarge | 77.19 | 221M | 75.15 | 83.15 | 73.28 |
| ALBERT-tiny | 49.05 | 1.8M | 53.35 | 43.53 | 50.26 |
| RoBERTa-wwm-ext | 75.11 | 108M | 75.20 | 83.62 | 66.50 |
| RoBERTa-wwm-large | 79.05 | 330M | 77.95 | 85.37 | 73.82 |
DRCD、CMRC2018: 繁体、简体抽取式阅读理解(F1, EM);CHID: 成语多分类阅读理解(Acc);C3: 多选中文阅读理解(Acc);Score总分是通过计算3个数据集得分平均值获得。
注:阅读理解上述指标中F1和EM共存的情况下,取EM为最终指标。CMRC2018结果为CLUE专用独立测试集。
使用方式:
1、克隆项目
git clone https://github.com/CLUEbenchmark/CLUE.git
2、进入到相应的目录
分类任务
例如:
cd CLUE/baselines/models/bert
cd CLUE/baselines/models_pytorch/classifier_pytorch
或阅读理解任务:
cd CLUE/baselines/models_pytorch/mrc_pytorch
3、运行对应任务的脚本(GPU方式): 会自动下载模型和任务数据并开始运行。
bash run_classifier_xxx.sh
如运行 bash run_classifier_iflytek.sh 会开始iflytek任务的训练
4、tpu使用方式(可选)
cd CLUE/baselines/models/bert/tpu
bash run_classifier_tnews.sh即可测试tnews任务(注意更换里面的gs路径和tpu ip)。数据和模型会自动下载和上传。
cd CLUE/baselines/models/roberta/tpu
bash run_classifier_tiny.sh即可运行所有分类任务(注意更换里面的路径,模型地址和tpu ip)
分类任务:
在CLUE/baselines/models/bert目录下执行
bash run_classifier_xxx.sh predict
即可在output_dir下得到相应的提交文件json格式结果xxx_prdict.json
或见代码实现
阅读理解任务:
在CLUE/baselines/models_pytorch/mrc_pytorch目录下执行
test_mrc.py
具体参数和使用方法可见对应的run_mrc_xxx.sh
tensorflow 1.12 /cuda 9.0 /cudnn7.0
运行方式:
pip install PyCLUE
cd PyCLUE/examples/classifications
python3 run_clue_task.py
支持10个任务、9大模型、自定义任务,见 PyCLUE toolkit
测评入口:我要提交

Corpus for Langauge Modelling, Pre-training, Generating tasks
可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目
当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。
包含如下子语料库(总共14G语料):
1、新闻语料 news2016zh_corpus: 8G语料,分成两个上下两部分,总共有2000个小文件。
2、社区互动-语料 webText2019zh_corpus:3G语料,包含3G文本,总共有900多个小文件。
3、维基百科-语料 wiki2019zh_corpus:1.1G左右文本,包含300左右小文件。
4、评论数据-语料 comments2019zh_corpus:2.3G左右文本,共784个小文件,包括点评评论547个、亚马逊评论227个,合并ChineseNLPCorpus的多个评论数据,清洗、格式转换、拆分成小文件。
这些语料,你可以通过上面这两个项目,清洗数据并做格式转换获得;
你也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;
如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。
为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。
该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。
数据量:训练集(53,360),验证集(10,000),测试集(10,000)
例子:
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}
每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。
该数据集共有1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别:"打车":0,"地图导航":1,"免费WIFI":2,"租车":3,….,"女性":115,"经营":116,"收款":117,"其他":118(分别用0-118表示)。
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。
OCNLI,即原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
数据量:train: 50k, dev(3k), test(3k)
例子:
{
"level": "medium",
"sentence1": "身上裹一件工厂发的棉大衣,手插在袖筒里",
"sentence2": "身上至少一件衣服",
"label": "entailment",
"genre": "lit",
"prem_id": "lit_635",
"id": 0
} {
"level": "easy",
"sentence1": "东、中、西部地区要加强多种形式的合作,在协调发展中逐步实现共同富裕",
"sentence2": "东、中、西部地区发展存在不协调",
"label": "entailment",
"genre": "gov",
"prem_id": "gov_1260",
"id": 1
} {
"level": "hard",
"sentence1": "外贸经营权进一步放开",
"sentence2": "外贸经营权经历了先收缩再放开的过程。",
"label": "neutral",
"genre": "gov",
"prem_id": "gov_755",
"id": 2
}
CMNLI数据由两部分组成:XNLI和MNLI。数据来自于fiction,telephone,travel,government,slate等,对原始MNLI数据和XNLI数据进行了中英文转化,保留原始训练集,合并XNLI中的dev和MNLI中的matched作为CMNLI的dev,合并XNLI中的test和MNLI中的mismatched作为CMNLI的test,并打乱顺序。该数据集可用于判断给定的两个句子之间属于蕴涵、中立、矛盾关系。
数据量:train(391,782),dev(12,426),test(13,880)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,蕴含关系标签。其中label标签有三种:neutral,entailment,contradiction。
Winograd Scheme Challenge(WSC)是一类代词消歧的任务。新版与原CLUE项目WSC内容不同
即判断句子中的代词指代的是哪个名词。题目以真假判别的方式出现,如:
句子:这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。需要判断“它”指代的是“床”、“枕头”,还是“手机”?
数据来源:数据有CLUE benchmark提供,从中国现当代作家文学作品中抽取,再经语言专家人工挑选、标注。
数据形式:
{"target":
{"span2_index": 37,
"span1_index": 5,
"span1_text": "床",
"span2_text": "它"},
"idx": 261,
"label": "false",
"text": "这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。"}
"true"表示代词确实是指代span1_text中的名词的,"false"代表不是。
数据集大小: - 训练集:1244 - 开发集:304
中文科技文献数据集(CSL)取自中文论文摘要及其关键词,论文选自部分中文社会科学和自然科学核心期刊。 使用tf-idf生成伪造关键词与论文真实关键词混合,构造摘要-关键词对,任务目标是根据摘要判断关键词是否全部为真实关键词。
数据量:训练集(20,000),验证集(3,000),测试集(3,000)
例子:
{"id": 1, "abst": "为解决传统均匀FFT波束形成算法引起的3维声呐成像分辨率降低的问题,该文提出分区域FFT波束形成算法.远场条件下,以保证成像分辨率为约束条件,以划分数量最少为目标,采用遗传算法作为优化手段将成像区域划分为多个区域.在每个区域内选取一个波束方向,获得每一个接收阵元收到该方向回波时的解调输出,以此为原始数据在该区域内进行传统均匀FFT波束形成.对FFT计算过程进行优化,降低新算法的计算量,使其满足3维成像声呐实时性的要求.仿真与实验结果表明,采用分区域FFT波束形成算法的成像分辨率较传统均匀FFT波束形成算法有显著提高,且满足实时性要求.", "keyword": ["水声学", "FFT", "波束形成", "3维成像声呐"], "label": "1"}
每一条数据有四个属性,从前往后分别是 数据ID,论文摘要,关键词,真假标签。
https://hfl-rc.github.io/cmrc2018/
```
数据量:训练集(短文数2,403,问题数10,142),试验集(短文数256,问题数1,002),开发集(短文数848,问题数3,219)
例子:
{
"version": "1.0",
"data": [
{
"title": "傻钱策略",
"context_id": "TRIAL_0",
"context_text": "工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
"qas":[
{
"query_id": "TRIAL_0_QUERY_0",
"query_text": "什么是傻钱策略?",
"answers": [
"所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合",
"其实就是买入并持有美国股票这样的普通组合",
"买入并持有美国股票这样的普通组合"
]
},
{
"query_id": "TRIAL_0_QUERY_1",
"query_text": "12月的消费者信心指数是多少?",
"answers": [
"78.1",
"78.1",
"78.1"
]
},
{
"query_id": "TRIAL_0_QUERY_2",
"qu