乘两会东风夯实AI底座:高质量数据集建设的战略路径与数据堂实践
2026年两会期间,众多代表委员的发言深刻揭示了当前我国在推进人工智能与实体经济深度融合过程中,高质量数据集所面临的机遇与挑战,并明确指出了国家层面的战略着力点。
全国人大代表、中国电气装备集团副总经理张帆指出当前高质量工业数据集供给严重不足,数据标准低、标注成本高、企业共享意愿不强,已成为制约“AI+制造”的突出短板。
全国人大代表、华工科技董事长马新强则连续呼吁构建国家工业数据治理体系,建设国家级和行业级的数据服务平台,为企业提供数据确权、评估等基础公共服务。
全国人大代表、中国移动湖南公司董事长程伟建议加快完善数据安全可信流通体系,建设基于隐私计算、区块链等技术的第三方可信流通服务平台。
承接两会的高层指引,我们需要深入理解高质量数据集本身。它并非简单的数据堆砌,而是经过规范采集、专业加工、精准标注、严格质检等全流程处理后,可直接用于AI模型开发与训练的数据集合,其核心区别于传统数据的优势,集中体现为“规模大、安全牢、观点正、效果好、应用广”五大核心特征。
在多个行业高质量数据集建设实践项目中,数据堂凭借深厚的技术积累和全流程服务体系,构建了从“数据引接”到“数据清洗治理”、“数据管理平台”、再到“大模型能力评测”的完整闭环能力,成为高质量数据集建设领域的重要实践者。
数据堂拥有覆盖数据清洗、标注、质检的全流程生产能力。依托40余项专业工具,可对图像、文本、视频等多模态数据进行清洗、去重、脱敏及增强合成。同时,自动化探针与专业人工评审相结合的双重质检模式,可保障数据的准确性与一致性。
具备从功能、性能、鲁棒性到隐私安全的多维度模型评测能力。依托标准库、模型库、用例库、方案库、工具库五大基础支撑,实现评测流程标准化与可重复验证,为模型迭代提供客观数据依据。
高质量数据集的价值释放,最终要落脚到具体行业场景中。在教育、电力、智慧交通、自动驾驶、具身智能、城市治理等多个关键领域,数据堂已成功服务众多央国企客户,积累了丰富的跨领域经验与个性化场景解决方案,将数据价值转化为行业发展动能。
针对教育数据“多模态对齐难、大规模标注慢、高质量评测难”等问题,数据堂研发攻关多模态语义表征对齐、高效半自动数据智能标注、多维度数据集质量评测等关键技术,并配套建设自动化采集与智能化生产平台,旨在提升数据集构建速度与质量,促进教育大模型的开发效率与应用落地。
数据堂通过四项关键举措,在教育高质量数据集建设上成效显著:一是关键技术攻关,破解标注难题,实现“音-图-文”亿组级对齐,提升数据标注开发及标注效率;二是生产平台研发,全面智能标注,建成智能化生产平台,实现全流程自动化治理与评测;三是核心数据构建,加速模型研发,产出多模态预训练、调教、评测数据集,助企业缩短模型开发周期,节省成本;四是提升模型能力,助力应用落地,用高质量数据保障模型安全性与可靠性。
数据堂教育高质量数据集建设核心创新点主要体现在三个方面:自动化数据集构建保障教育数据供给能力、多维度评测体系确保数据集应用效果、全生态多模态数据集促进教育AI产业化,为教育大模型的研发与落地提供了坚实的数据支撑。
2026年两会为高质量数据集的建设按下了“加速键”。从代表的建言献策中,我们看到了国家对解决数据供给瓶颈、夯实基础设施、保障安全流通的战略决心。作为这一进程的深度参与者,数据堂将持续以全栈服务能力与多行业实践经验,携手政企伙伴共建高质量数据生态,为人工智能时代的数字中国筑牢坚实底座。