690万道中文试题结构化数据集 | 覆盖小初高大学全学段多学科

本数据集提供超过690万道经过深度结构化解析的中文试题,全面覆盖小学、初中、高中及大学多个学段与学科。每道试题均包含问题、答案、解析、题型、学科等丰富字段,是进行大模型学科知识增强、教育AI产品研发及智能题库构建的核心高质量数据资源。

数据规格

数据内容
多学科试题文本数据
数据规模
约690万道
数据字段
包含问题、答案、解析、题型、学段、学科等字段
数据类别
小初高及大学的多个学科
存储格式
Jsonl
语言
中文
数据处理
解析了问题、解析及答案等,做了公式latex转换和表格格式转换,内容也做了清洗

样例展示