发布时间 : 2021-06-22 阅读量 : 1759
无论家居还是驾驶场景下,和人工智能对话的应用已经深入到我们日常生活,给我们生活带来诸多便利和快乐。如今对话式人工智能爆发,谷歌最近推出lamda的ai对话搜索,可以就任何话题展开对话,国内各大互联网企业也在积极布局对话式ai应用。idc数据显示,中国对话式ai市场规模预计在2023年达到约18.6亿美元,2019-2023年的年均复合增长率(cagr)为34.0%。
对话式ai离不开对话式ai训练数据,magichub.io数据开源社区最近上传一批对话式ai数据集,帮助开发者进行对话式ai模型的训练。此外还开源一批朗读式数据集和平行语料,总时长超过200小时,大小近20g。
对话式ai数据集
近期社区开源的对话式ai数据集包括普通话对话、郑州话对话、英语和捷克语对话数据集,场景涉及网络会议、自由对话等场景,对话还原真实场景。
普通话对话音频数据集-网络会议
本数据集包含了5.2小时的中文普通话对话音频和转写文本。内容为使用笔记本电脑和手机进行网络会议的10次对话。
郑州话对话音频数据集
总时长为4小时的郑州话对话音频和转写文本,其中包含12对说话人之间的自由对话。
此外,magichub.io社区还开源了41小时英语电话对话数据集和15小时捷克语对话音频数据集()及转写文本,可用于训练口语对话自动语音识别声学模型。
朗读音频数据集
社区开源的朗读音频数据集包括德语朗读音频、郑州话朗读音频、中文普通话朗读音频。音频内容包含日常用语和命令控制,音频总时长超过180小时。
德语朗读音频数据集-命令控制
该数据集总时长包含0.71小时德语朗读音频和转写文本,内容为命令和控制。共有597条语料,由10名说话人提供。
郑州话朗读音频数据集-日常用语
该数据集包含了5小时的郑州话朗读音频和转写文本,内容为日常用语。共有5,132条语料,由10名说话人提供。
社区还开源了来自aishell的中文普通话朗读音频数据集()和包含100句的中英文平行语料(中译英)()。普通话音频数据集包含178个小时的普通话朗读音频和转写文本,数据由400名说话人提供;平行语料内容为金融相关的日常用语。
目前,社区开源了超过40组音频/文本数据集,累计超过1000小时音频数据,数据语种包括英语、西班牙语、意大利语、韩语、日语等外语数据集;中文普通话、粤语、四川话、上海话、郑州话等方言数据集;车载噪音数据集和发音词典等。
获取更多数据集,欢迎访问:数据开源社区。未来,将有更多数据将在这里开源,更多的数据供开发者免费下载使用!