发布时间 : 2022-06-20 阅读量 : 320
国际语音顶级会议interspeech 2022预计将于今年9月18日-22日在韩国仁川举办。
magic data(北京爱数智慧科技有限公司)联合中科院声学研究所、上海交通大学和西北工业大学,基于语音识别、说话人日志和关键词检索的相关研究论文《open source magicdata-ramc: a rich annotated mandarin conversational(ramc) speech dataset》脱颖而出,成功入选本次大会。
届时,magic data 将作为大会的银级赞助商参与活动,致力于加强工业界和学术界的技术协作,支持会议顺利进行。
interspeech是由国际语音通信协会isca组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。本届会议以“human and humanizing speech technology”为主题,内容涵盖 语音识别、自然语言处理、神经机器翻译等领域。
magic data作为全球领先的ai数据凯发体育网的解决方案提供商,以实际业务场景需求为驱动,聚焦asr、nlp、tts等领域。在interspeech 2022中,magic data论文经过重重审核,最终被大会收录。本文向大家分享magic data入选论文的主要内容与创新点。
随着智能语音助手、智能家居设备、智能客服等技术被广泛利用,自然对话语音识别的需求量日益增长,越来越多的开发者向语音社区openslr免费开放中文语音数据库,覆盖朗读、会议、访谈、新闻等场景。但自然对话中的口语表达、犹豫、重复、非语言信息等表达不流畅的现象给语音识别任务带来很大的挑战。由于缺乏免费且高质量的自然对话语料库,近年来对话式语音识别研究进展缓慢,探索对话场景中的语音处理技术仍然是一个挑战。
为了进一步丰富开源语音语料库,促进语音语言处理技术的发展,magic data联合中科院声学研究所、上海交通大学和西北工业大学,在magichub开源社区正式开源180小时中文对话式语音数据集magicdata-ramc。magicdata-ramc是一批高质量且标注丰富的训练数据集,能够很好地支持开发者完成语音识别和说话人日志相关的研究。
magicdata-ramc包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。
下载
论文
基线
目前,magichub.com开源社区共开源超过100个数据集,数据类型涵盖asr、tts、nlp、发音词典等,开源数据语言包括中文、英语、德语、意大利语、阿拉伯语等众多语种。未来,更多语种和类型数据集将持续在社区开源,欢迎大家下载使用。
更多详情请见: