1,000万道英文试题文本数据结构化解析处理数据

1,000万道英文试题文本数据结构化解析处理数据,每道试题包含问题、答案、解析、学科、年级、题型字段;学段覆盖小初高到大学;学科覆盖数学、生物、会计等;该数据为英美体系下试题文本,可用于大模型学科知识增强

数据规格

数据内容
英美体系下的试题文本数据
数据规模
约1,000万道
数据字段
包含问题、答案、解析、学科、年级、题型
学科类别
小初高及大学等各学科
存储格式
Jsonl
语言
英文
数据处理
解析了学科、问题、解析及答案等,做了公式latex转换和表格格式转换,内容也做了清洗