数据清洗与治理：为大模型预训练打造完美数据

作者：数据堂发布时间：2024-10-16

引言：

AI大模型性能的突破得益于高质量的数据。数据的高效处理是影响大模型成功的关键因素之一，随着数据集规模的增大，数据清洗与治理的难度也在攀升。

大模型数据清洗与治理的必要性

训练大模型需要大规模、高质量、多模态的数据集，通常需要从各个领域和多个数据源收集数据，这些数据可能是文本、图像、语音、视频等多种形式。

数据来源繁杂且内容混杂，存在诸多不规范和不一致的情况，会对模型性能提升造成障碍。同时，在这些数据中也存在如行业白皮书、学术论文等特定行业专有数据，其中包含公式、网址、图片等多种内容格式，需要进行结构化解析。

大模型数据清洗流程

数据清洗的过程包括数据格式清理及转换、数据去重和数据整合。

数据格式清理及转换

网页数据格式为HTML，而电子图书分EPUB、PDF、MOBI等多种格式。PDF分为可编辑版和扫描版。论文期刊的格式有PDF、DOC等多种。

EPUB格式示例

MOBI格式示例

多样的格式加大了数据处理的难度。因此，数据清洗第一步就是数据格式清理，将数据分成可处理格式的数据与不可处理格式的数据。数据格式不同对于数据处理影响非常大，因此，下一步需要将不同格式统一转换成相同格式。

部分格式转换代码

数据去重

数据格式达到统一之后，需要对数据进行简单去重，如文件名去重、数据MD5值去重清洗掉一些容易分辨的重复数据，为后一步数据处理节省工作量。

数据堂基于MD5（Message-Digest Algorithm 5）哈希算法进行MD5值去重，由于MD5算法具有高效、唯一性和不可逆性的特点，因此可以快速计算并比较文件的MD5值，以确定文件是否重复。通过去除重复的文件，可节省存储空间和提高数据处理效率。

文件md5值去重代码

数据整合

经历上述数据处理之后，数据存储结构可能不太一致，因此数据清洗的最后一步是将分散的文件合并成一个整体，为后续的分析和决策提供完整、一致的数据。

大模型数据治理流程

数据堂基于多年数据处理经验形成一整套数据治理流程，包括质量过滤、敏感内容过滤、数据去重、人工检查等步骤。

质量过滤：

直接收集到的文本数据往往掺杂较多低质量数据。数据堂主要采用两种过滤方法：基于启发式规则的方法和基于分类器的方法。

基于启发式规则的方法主要通过精心设计的规则来针对性识别和剔除低质量的文本数据。例如在处理代码语料时，可以过滤掉非代码相关格式的数据。为了训练特定目标语言为主导的大语言模型，还可以使用基于语种的过滤。

数据堂也训练出用于判别数据质量的文本分类器，进行预训练语料的治理。具体来讲，可以选取部分代表性的数据进行质量标注，以此训练出一个精准的文本质量分类器。

在进行数据清洗时，过滤效率也是我们会考虑的因素之一。为了平衡效率与准确性，针对具体数据集也会进行以上策略的灵活组合。

敏感内容过滤

除了去除低质量内容，收集到的数据还可能包括有毒内容或隐私信息，需要进一步更为细致的过滤和处理。

数据堂研发了有毒内容和隐私信息的过滤方法，以确保数据的纯净度和安全性。

对于有毒内容的文本，数据堂采用基于分类器的过滤方法。具体来说，数据堂构建出高效的毒性文本分类器，通过设置合理的阈值，有效识别并过滤掉含有有毒内容的信息。

在进行分类阈值设置时，需要在精确度和召回率之间寻求平衡，避免过多或者过少去除候选数据。

针对隐私内容，数据堂采用基于规则的方法，主要标注电话号码、邮箱地址、IP等多类敏感信息。一旦检测到相关隐私信息，便会根据其出现的频率采取不同的处理策略。

数据去重

研究发现，预训练语料中的重复低质量数据可能诱导模型在生成时频繁输出类似数据，进而影响模型的性能。此外，这些数据也可能导致训练过程的不稳定（训练损失震荡），可能导致训练过程崩溃。

对预训练数据进行去重处理是一个重要步骤。总体来说，去重算法基于不同的计算粒度以及匹配方法。

针对数据集和文档级别进行去重，去除那些具有高度相似甚至完全一致内容的文档。如：多个 URL 可能具有相同的网页内容，或者网页数据集和新闻数据集中包含相同的新闻文档。

随后，数据堂进一步在句子级别实现更为精细的去重。如，计算两个句子之间公共子串的长度，当其长度过长时直接删除某一个句子。

在去重过程中，数据堂使用精确匹配算法（即每个字符完全相同）和近似匹配算法（基于某种相似性度量）。考虑到预训练数据的规模非常大，实施过程中会综合考虑去重效率和去重效果之间的平衡。

人工检查

在程序处理之后，数据堂还会通过人工检查来确保程序处理的准确性，数据质量评估需要随机采样不少于5000个样本进行人工评估。不同类型的数据将按照不同的准确率要求进行客观评估。

人工检查团队将从文本字符识别准确率、布局准确率、内容质量等方面进行综合性评估，并备有一套完善的评估质量细则。

结语：

数据专业高效的处理是关键，数据堂在大模型预训练数据的清洗与治理方面拥有丰富的经验和专业能力，助力客户快速解决大模型的“卡脖子”问题。

阅读更多内容

人工智能技术评测基准平台重磅发布

9月25日，以“聚广州，创未来”为主题的2024中国创新创业成果交易会在广州白云国际会议中心盛大开启。科技局、国资委、政数局、鹏城等领导参加。会上，鹏城实验室、广州数据交易所、广东联通、数据堂（北京）科技股份有限公司共同发布人工智能技术评测基准平台。

未来生活新助手：智能人形机器人引领科技革新

在科技日新月异的今天，智能人形机器人正逐渐成为我们日常生活中的得力助手。近日，某知名科技公司在其年度创新活动上，展示了一款最新研发的人形机器人，该机器人能够执行多种日常任务，从家务到陪伴，无所不能，为人们的未来生活描绘了一幅充满科技感的画卷。

数据清洗与治理：为大模型预训练打造完美数据

上一篇

人工智能技术评测基准平台重磅发布

下一篇

未来生活新助手：智能人形机器人引领科技革新

数据清洗与治理：为大模型预训练打造完美数据

近期内容

数据安全新思路：标注平台私有化部署守护敏感数据

波士顿动力Atlas机器人：工厂自动化的新里程碑

人工智能驱动下的谷歌：创新与挑战并存

上一篇

人工智能技术评测基准平台重磅发布

下一篇

未来生活新助手：智能人形机器人引领科技革新