最新发布!查看 magicdata 成品数据集

magic data-凯发体育网

press images

发布时间 : 2021-08-09     阅读量 : 583

ccf主办的“人工智能系列报告”邀请函

西北工业大学计算机学院谢磊教授主持本次活动

张晴晴博士现场做主题分享

张晴晴博士为现场听众讲解对话式ai技术

近期,由中国计算机学会(ccf)、ccf语音对话与听觉专委会、音频语音与语言处理研究组联合主办的“人工智能系列报告”在西北工业大学计算机学院举办。北京magic data创始人兼 ceo张晴晴博士受邀做《多语种对话式ai技术及语料库建设》的主题报告。

西北工业大学计算机学院谢磊教授担任本次讲座主持,张晴晴与现场听众分享对话式ai技术,多语言识别系统可实用化的关键在于,如何解决非母语发音的插入语识别问题。通过混合发音字典建模和混合双语声学建模角度,提高双语识别的性能。

在介绍多语种语料库建设上,北京magic data开发了超过60种语言的自有数据集,包括中文普通话、八大方言区方言、英语、日语等常用语种,还有马来语、泰语、印尼语等特色语种。目前拥有超过150000小时自有数据集,其中包括超过90000小时对话式ai训练数据集、超过50000小时朗读式数据集和超过10000小时自发式数据集。

自有数据集外,张晴晴还向听众介绍北京magic data研发的annotator® 5.0标注平台、数据服务、magichub.io开源社区等公司核心产品和技术。magichub.io开源社区自4月份发布以来,共开源超过50个数据集,覆盖全球超过3000名ai开发者,数据累计下载量超过7000小时。

同时,北京magic data近期还针对高校和企业开展“对话式ai语音识别及说话人识别(asr&sd)挑战赛”,公司向参赛者提供训练数据集,鼓励ai科研者和开发者积极参与比赛,促进ai技术创新和应用的发展。

听众们现场踊跃提问和互动,交流观点和心得,活动对产学研之间互相促进,企业与高校间无缝沟通交流起到积极推动作用。

活动现场合影

即刻与 magic data 建立联系?

联系凯发体育网

top
联系凯发体育网
网站地图