最新发布!查看 magicdata 成品数据集

magic data-凯发体育网

press images

发布时间 : 2021-08-04     阅读量 : 485

magichub.io开源社区

数据是人工智能的燃料,为人工智能与人交流提供动力支撑。网络和硬件的普及带来数据量的飞速增长,但是结构化的数据才能用于监督学习,才是人工智能真正理解人的关键。当开发者开发出ai模型,将结构化的数据输入到模型中,进行大量的训练,不断提升模型的识别率和响应速度。这里涉及到语音识别(asr)、语音合成(tts)和自然语言理解(nlp)等技术。

近期,magichub.io开源社区继续开源数据,此次开源超过20小时不同数据集,包括语音识别(朗读和对话语音数据)以及自然语言理解数据,供ai开发者下载使用。

自然语言理解(nlp)文本语料

自然语言理解作为人工智能核心课题之一,以语言学为基础涵盖各个学科知识,人工智能模型训练更离不开nlp数据训练,magichub.io社区开源用于ai识别地标地址的数据。

自然语言理解(nlp)——中文地标地址数据 开源的数据集包含100条中文地标地址文本语料,数据采集了大部分四川和河北,以及江苏、浙江、广西、安徽、广东等地重点地标地址。

数据集详细信息

语种:中文 内容:中文地标地址文本语料 数据类型:自然语言理解(nlp)文本语料

对话式数据集

自然对话式数据是对话式ai的加速器,赋能当前最热门的对话式人工智能发展。对话式数据也是magichub.io开源社区主要的开源数据类型之一,此次社区分别开源上海口音中文普通话和韩语对话音频数据集。

上海口音中文普通话对话音频数据集

开源的数据包含3个小时的上海口音中文普通话对话音频和转写文本,内容为4名说话人之间的8组给定主题对话。为确保对话中使用了上海口音的中文普通话而不是上海话,其中一名说话人的中文普通话是相对标准的。

数据集详细信息

语种:吴语重口音中文普通话 内容:根据给定主题自由对话 音频参数:16 khz,16 bits,单通道 录音设备:手机 录音环境:室内环境

韩语对话音频数据集

开源的数据包含了5.22个小时的韩语对话音频和转写文本,内容为7组说话人之间的22组给定主题对话。

数据集详细信息

语种:韩语 内容:给定主题自发式对话 音频参数:16 khz,16 bits,单通道 录音设备:手机 录音环境:室内环境

朗读式数据集

朗读式数据集是语音识别的基础数据,大量结构化的朗读式数据集在提升ai模型识别率上起到重要作用。magichub.io社区开源了总共超过10个小时、经过结构化的俄语和武汉话朗读数据。

俄语朗读音频数据集-日常用语

数据集总时长为6.57小时的俄语朗读音频和转写文本,内容为日常用语。共有3,842条语料,由10名说话人提供。

数据集详细信息

语种:俄语 内容:朗读式独白、日常用语 音频参数:16 khz,16 bits,单通道 录音设备:手机 录音环境:室内环境

武汉话朗读音频数据集-日常用语

此数据集包含了5.08小时的武汉话朗读音频和转写文本,内容为日常用语。共有5,082条语料,由4名说话人提供。

数据集详细信息

语种:武汉话 内容:日常用语 音频参数:16 khz,16 bits,单通道 录音设备:手机 录音环境:室内环境

此次magichub.io开源社区共开源超过1.6gb用于ai模型训练或测试的语音数据,此外还整理了来自网络的海量数据集,包括来自清华大学、gigaspeech、librispeech、ted等数据。

目前,社区已开源了超过20种语言,涵盖各大应用场景的数据集。迄今为止,社区聚集超过3000名ai开发者,数据下载小时数超过15000h。magichub.io开源社区将持续为开发者提供更多高质量数据集。

近期,annotator®5.0标注平台的saas免费版将向开发者开放,并发布在magichub.io开源社区,更多开源数据和工具将汇聚于此,贡献于斯,欢迎大家持续围观。

即刻与 magic data 建立联系?

联系凯发体育网

top
联系凯发体育网
网站地图