10万对中文大模型通用领域复杂指令跟随SFT文本数据集

10万对中文复杂的prompt指令,字数在50~400字之间,每个prompt中的约束条件不低于3个,用于训练提升大模型的指令跟随性。类别覆盖生成类(写新闻稿、采访提纲、文案创作、文稿校对、中英作文、语法学习、研究报告、学习计划、诗歌创作、美食介绍、广告软文、销售话术、公文辅助写作、公文审核、政策文件问答等)、重写类(改写句子、文本纠错、句子合并、简化文案)、摘要类(内容摘要)、提取类(事件要素提取、观点提取、关键词提取、立场抽取、实体抽取)。所有prompt均为人工编写,满足多样性覆盖。

数据规格

数据量
10万
数据用途
用于训练提升大模型的指令跟随性
数据内容
各种复杂的prompt指令,字数在50~400字之间,每个prompt中的约束条件不低于3个
类别覆盖
生成类(写新闻稿、采访提纲、文案创作、文稿校对、中英作文、语法学习、研究报告、学习计划、诗歌创作、美食介绍、广告软文、销售话术、公文辅助写作、公文审核、政策文件问答等)、重写类(改写句子、文本纠错、句子合并、简化文案)、摘要类(内容摘要)、提取类(事件要素提取、观点提取、关键词提取、立场抽取、实体抽取)
生成类(写新闻稿、采访提纲、文案创作、文稿校对、中英作文、语法学习、研究报告、学习计划、诗歌创作、美食介绍、广告软文、销售话术、公文辅助写作、公文审核、政策文件问答等)、重写类(改写句子、文本纠错、句子合并、简化文案)、摘要类(内容摘要)、提取类(事件要素提取、观点提取、关键词提取、立场抽取、实体抽取)
制作方式
所有prompt均为人工编写,满足多样性覆盖
语言
中文