10万对中文大模型通用领域复杂指令跟随SFT文本数据集

10万对中文复杂的prompt指令，字数在50~400字之间，每个prompt中的约束条件不低于3个，用于训练提升大模型的指令跟随性。类别覆盖生成类（写新闻稿、采访提纲、文案创作、文稿校对、中英作文、语法学习、研究报告、学习计划、诗歌创作、美食介绍、广告软文、销售话术、公文辅助写作、公文审核、政策文件问答等）、重写类（改写句子、文本纠错、句子合并、简化文案）、摘要类（内容摘要）、提取类（事件要素提取、观点提取、关键词提取、立场抽取、实体抽取）。所有prompt均为人工编写，满足多样性覆盖。

数据堂如何保障数据质量与安全

数据规格

数据量

10万

数据用途

用于训练提升大模型的指令跟随性

数据内容

各种复杂的prompt指令，字数在50~400字之间，每个prompt中的约束条件不低于3个

类别覆盖

生成类（写新闻稿、采访提纲、文案创作、文稿校对、中英作文、语法学习、研究报告、学习计划、诗歌创作、美食介绍、广告软文、销售话术、公文辅助写作、公文审核、政策文件问答等）、重写类（改写句子、文本纠错、句子合并、简化文案）、摘要类（内容摘要）、提取类（事件要素提取、观点提取、关键词提取、立场抽取、实体抽取）

制作方式

所有prompt均为人工编写，满足多样性覆盖

语言

中文