cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

ChatGPT爆火的背后,到底是什么在跟我们对话?

作者:数据堂 发布时间:2023-03-30

2022年11月底美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具——ChatGPT聊天机器人。一经推出便迅速在社交媒体上走红,成为AI领域最炙手可热的话题,掀起了新一轮的人工智能浪潮。


ChatGPT不单是聊天机器人,它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,能够响应用户提出的各种自然语言形式的请求,做到与真正人类几乎无异的聊天交流。


ChatGPT像人一样的对话过程是最大的亮点,背后的对话语义技术功不可没。ChatGPT使用了大型语言模型GPT-3.5,其核心技术涵盖了在多轮对话过程中的用户意图理解,以及融合了机器翻译、信息抽取、文案生成、代码生成、邮件撰写等先进的内容生成技术,使其拥有语言理解和文本生成能力。

 

然而,ChatGPT并非技术的颠覆式创新,但该应用为何如此“出圈”?归根结底,是支撑这套人工智能技术训练语言模型的底层技术正变得越来越成熟。事实上,如果想完成如ChatGPT乃至更高级的人机交互,背后需要对海量数据处理分析及训练



数十年来数据堂凭借自身优势,针对对话语义方面已设计制作了大量覆盖多领域的多轮对话文本训练数据集,以下为数据堂相关文本数据集:


垂直领域多轮对话文本


203,029组医疗类多轮问答数据

语种:中文

规模:超过20万组,每组包含医生和患者两人之间的多轮对话。


{

"id": 55034,

"category": "黑头",

"content": [

"patient:女 22岁 黑头多 毛孔粗大 鼻翼两侧泛红 有什么方法可以治疗或者缓解吗?然后再麻烦医生看看我的皮肤还有什么其他的问题",

"doctor:你好,你的皮肤中间T区应该是比较油的,所以时间长了导致毛孔粗大,清洁以后会有鼻翼发红的现象。建议你使用针对敏感肌的药妆化妆品,如薇诺娜,玉泽等。T区可以适当多做清洁,面颊要少做清洁,洗脸的时候要面颊少按摩。在此基础毛孔粗大以及鼻翼泛红可以采用激光治疗,效果比较好。平常注意清淡饮食,辛辣刺激的少吃,皮肤上其他问题就是有黑眼圈,注意少熬夜,看你眼睛有黑眼圈。散在的小痘痘,有脓头的可以用莫匹罗星软膏涂一下,防止产生色沉。祝好。",

"patient:感谢您的回答 我想问一下激光治疗和果酸换肤那个比较合适我 这两个都有什么优缺点",

"doctor:你现在主要适合做激光先解决一下毛孔以及泛红的问题。果酸换肤有一定的角质剥脱作用,做完皮肤会看起来比较嫩一点,但你现在皮肤鼻翼旁有泛红,会敏感一点,所以暂不建议做果酸。"

],

},


查看更多内容:

https://www.datatang.com/dataset/1086


 

开放领域多轮对话文本


830,276组人人多轮对话文本数据

语种:中文

规模:超过83万组,每组包含两个人之间的多轮对话。

 

17:18:19 B A 忙吗?吃火锅去不?
17:22:43 A B 你现在哪儿?也不提前说一下...我刚从游乐场往回走,还没打扮呢
17:24:53 B A 吃火锅还用打扮
17:26:44 A B 好...在哪里吃啊,几点
17:28:49 B A 我们先找个地方见面吧,见完面再定吧
17:31:03 A B 你到哪了?我快到了
17:33:40 B A 我刚出来,你先找个地方等我一会儿
17:39:06 A B 那我一会先去步行街附近转悠吧
17:40:13 B A 百货大楼门口 我很快就到
17:41:29 A B 我还没到,路上堵车...你慢点


查看更多内容:

https://www.datatang.com/dataset/150

 


垂直领域意图理解数据


47,811句交互场景单句意图标注数据

语种:中文

规模:涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用等15个领域的意图标注数据。



查看更多内容:

https://www.datatang.com/dataset/1085


 

84,516句交互场景英文单句意图标注数据

语种:英文

规模:涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用、语音助手等16个领域的意图标注数据。



查看更多内容:

https://www.datatang.com/dataset/1154


 

开放领域意图理解数据


687,694句开放领域意图标注数据

涵盖出行、乘车、乘飞机、叫车、租车、行程购票、订机票、改签机票、订火车票、改签火车票、订宾馆、看电影、查询电影、定电影票、看综艺、看演唱会、查询地点位置、联系、打电话、发消息、寄快递、取快递、查询快递、充话费、充流量、开会、送人、接人、订餐馆、吃美食、看动漫等60个领域的意图标注数据。

 

"文本":"昨天我看了!今天下午5.30有一部栀子花开!万达!愿意一起看个电影吗?",
"模块":"看电影",
"是否发送方意图":"是",
"是否接收方意图":"是",
"主题":"看个电影",
"前置条件":"",
"条件地点":"",
"间隔时间":"",
"参与人姓名":"",
"参与人号码":"",
"动作发生地":"万达",
"动作开始时间":"今天下午5.30",
"动作结束时间":"",
"电影名":"栀子花开",
"是否现场":"1",
"影院地点":"万达",
"影院名":""


查看更多内容:

https://www.datatang.com/dataset/197

 

除此之外,数堂还提供文本数据的定制服务以及文本数据标注平台服务

 

文本数据定制服务可支持采集多语言、多领域的对话文本数据,并可根据不同的业务目标对不同类型的文本数据进行情感分析、主题分类、问答标注等任务。

 

文本数据标注平台覆盖实体、实体关系、阅读理解、交互意图、文本属性、文档属性、文本问答等标注工具,是数据堂根据多年标注实施经验打造而成,每一个按钮都经过多次实战考验,致力将操作体验优化到极致。

 

作为全球领先的人工智能的数据服务商,数据堂会持续制作新的对话语义训练数据集,为支撑ChatGPT模式的落地尽力。

口音英语语音识别技术研讨会暨挑战赛-数据堂