cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
作者:数据堂 发布时间:2023-12-12
11月29日,阿里创始人马云在内网发言祝贺拼多多,后者市值一度超越阿里达到1921亿美元。同时,马云也指出:AI电商时代刚刚开始,对谁都是机会,也是挑战。
AI时代到来,意味着AI+电商能撬动更大的市场。从降本增效、丰富内容生态到提升用户体验进而重塑流量等,加码AI已成为行业共识。数据堂立足于AI数据服务领域,可以为电商企业客户提供高质量的训练数据解决方案,赋能电商全链路,助力提升智能化推荐、直播美颜、虚拟试穿、数字人直播、快递自动化分拣等多个应用场景的模型需求,实现货品售前、售中、售后的智能化管理运营。
01 虚拟人直播带货: 越南语TTS数据
项目概述
客户正在打造媲美真人的数字人直播,需要定制越南语TTS录制,要求采集10男10女且采用直播带货语气。
挑战
市面上普遍的数据需求通常仅需1-2个音色即可满足丰富度。然而,此次客户需要充足的音色并且在要求严格的录音环境进行录制。同时,专业的小语种音素标注成为了客户重点关注的问题。
结果
数据堂自建TTS录音棚,达到专业级NR15声学标准,可以轻松调配客户录制参数要求。迅速筛选20位拥有专业直播经验的越南语采集人员以及经验丰富的外语专家,满足音色所需,攻克小语种音素标注等难题。
02 商品智能推荐: 商品拉框与分类
项目概述
客户为全球知名的电商公司,正在优化同类型产品推送功能,实现千人千面的商品推送。客户希望数据堂从数据层面入手,完成超高精确度的商品矩形框标注、并对商品进行标签标注。
挑战
客户需要对40万张图片进行多级标签分类以及数据清洗。然而,对于单个标注框的尺寸有像素限制要求,且市面上已有的标注工具对超大量级的图片快判操作效率不高。
结果
数据堂自主研发的标注工具帮助建立多达100余类产品进行一级、二级、三级等标签分类,便于管理和使用数据;内置的像素限制功能帮助标注人员精准便捷满足客户标注规范。通过多数据统揽的快判操作界面,以极低成本超前完成交付,全量验收通过。
03 虚拟试穿: 多人种多类型服饰数据采标
项目概述
随着人体分割技术、服饰检测及服饰分割技术的发展,虚拟试穿领域取得了重大突破,客户旨在打造以人物为中心的虚拟试穿,以增强购物体验并提高成单率。因此,需要大量的高质量监督训练数据,即同一人在不同姿势下试穿多件不同服装的照片配对。
挑战
由于客户的服务涉及全球范围,因此,不同人种、不同年龄、不同性别、不同身材、不同类型服饰成为了此次需求的重点。
结果
数据堂快速召集大量多人种、各年龄段、不同身材、不同穿搭风格的采集人员进行了5万组数据采集,并且由专业的美学人员全程支持,通过精细化抠图完成标注。
04 直播美颜:发丝级抠图数据标注
概述
美颜特效已成为直播不可缺少的一项基本要求,尤其是电商直播中。客户为优化直播场景的人脸美颜功能,需要标注大量的人像美学数据。
挑战
由于时间紧迫,并需对多年龄段人员进行发丝级抠图;同时,要求对图片进行美学方面的专业级别修图。因此,需要大量的拥有较高审美能力的专业人员在短期内高效完成标注任务并确保质量。
结果
数据堂召集了大量的专业人员完成了多达5万张图像的修图任务,并且利用具备精细化抠图预识别能力的标注工具,有效帮助客户缩短了一个月的工期。
05 虚拟人直播:多模态数据采标
概述
AI导购可以实现实时问答、提升了用户的消费体验和交易转化率,也降低了人工成本。客户是一家全球知名的科技领军企业,需要大量的真人图像、声音和动作多模态数据来提升数字人的质量。
挑战
客户要求多人种真人视频并满足专业主播或演员标准,拍摄过程中,服装需要适应身体轮廓、发型避免出现发丝飘动、拍摄光照无变化等均有极高要求。
结果
数据堂拥有丰富的具备专业口播能力的外语采集人员,并帮助客户设计了时长达1分钟的专属语料、15个采集动作以及10款服装搭配款式。数据堂具备专业的多模态数据采集能力,满足与画面严格对齐的音频视频文件交付要求。精细化抠图预识别能力帮助标注人员高效完成每一帧的人像分割标注。
06 快递自动化分拣:快递面单OCR识别
概述
电商物流体系愈发完善,快递是必不可少的一环。然而,手写或打印模糊的快递面单往往会给快递员带来极大的困扰。为了解决这一问题,客户希望持续优化OCR技术,以实现快递面单的精准识别和处理。
挑战
客户需求时间紧迫,且需要处理10万张数据。客户所提供数据素材中,界面字体大小不一、语种复杂、背景复杂都成为了标注过程的挑战。
结果
数据堂通过使用自研的OCR预识别标注功能,再经人工进行矩形框像素点个别微调,最终以一周的时间交付10万张数据,6000万个字符,且每张图包含50个框,超出客户给定准确率2个百分点交付。
07 结语
我们相信,以AI为基础,电商平台可以持续提升购物体验、改善运营效率和增强商业竞争力。通过更高质量的训练数据集,数据堂助力客户在“AI+电商”时代把握机会,积极应对挑战!