magic data-凯发体育网

发布时间 : 2022-07-25 阅读量 : 439

7月6日及14日，“magichub重口音对话asr挑战赛”线上颁奖暨获奖方案分享直播活动圆满结束。两场技术干货的直播分享活动共吸引到ai算法工程师600 ，互动次数超5000 。

直播活动中，除了获奖团队代表的方案分享，也邀请magic data创始人兼ceo张晴晴、小米科技新一代kaldi团队也在线带来精彩的主题分享，共同探索ai语音识别领域的技术及趋势。

ramc开源数据集

magicdata-ramc开源数据集介绍

首先，magic data创始人兼ceo张晴晴带来《magicdata-ramc开源数据集介绍》的主题分享。随着人工智能行业的飞速发展，自然对话语音识别的需求量日益增长，近年来对话式语音识别研究面临诸多挑战。本次比赛基于magic data开源的180小时magicdata-ramc数据集，数据均在真实场景环境录制，采集人与人之间的自发式对话，捕捉自然语言现象。同时，交谈内容无脚本预设，话题自然且丰富，共351组多轮对话，每组对话仅围绕一个主题。此外，采集人的性别与地域分布均衡，适用于带口音的语音识别研究。

针对该数据集的论文经过重重审核，已被语音顶级大会interspeech 2022收录。今年9月magic data 也将作为银级赞助商参与活动，加强工业界和学术界协作，支持会议顺利进行。

数据下载 :

论文 :

基线 :

magichub开源社区探索更多 :

冠军团队：小米科技

基于conformer端到端模型重口音普通话语音识别

mitc团队由小米ai实验室的陈俊杰进行分享。该团队使用了与目前小米线上语音服务相同的基于hybrid ctc/attention结构的conformer端到端建模方法。团队针对比赛数据进行了全面分析，并针对数据特点针对性的数据扩充，使用了基于kalid的数据増广方式，并对个性化语音合成的方式进行了尝试。由于这次比赛的数据属于口语对话领域，所以借鉴了在过往产品上使用的算法优化的经验，在短时间内实现了较好的实验结果。另外在最终模型解码中，使用k2提供的tlg和attention rescore的解码方式，为团队最终获得第一名提供了重要保证。

二等奖团队：同花顺&天津大学

royalflush-cca重口音对话asr方案介绍

由同花顺和天津大学组成的royalflush-cca团队由天津大学的宋彤彤进行分享。该团队使用wenet进行模型搭建，采用conformer及bi-decoder模型结构。数据上进行了速度扰动和噪声扰动。解码上采用decoder重打分的方法，此外加入transformer语言模型进行shallow fusion来辅助解码。由于涉及到低资源模型自适应，使用低资源数据微调整个模型容易产生过拟合导致模型泛化能力下降，因此我们引入adapter技术[1]来解决这个问题。首先将整个模型在普通话和带口音数据上进行训练，微调阶段只训练adapter参数，模型表现提升的同时微调阶段所需训练时间大幅度降低。最终将多个不同的模型采用rover技术进行系统融合得到最终结果。

[1] chen, s., ge, c., tong, z., wang, j., song, y., wang, j., & luo, p. (2022). adaptformer: adapting vision transformers for scalable visual recognition. arxiv, abs/2205.13535.

三等奖团队：网易有道

基于espnet的重口音识别任务技术总结

网易有道dao团队由团队代表高圣洲进行分享。该团队主要基于hybrid ctc/attention框架，采用将普通话数据跟重口音数据合并训练的方式完成这次任务。采用ctc attention joint decoding的解码方式，将decoder attention score加入到ctc prefix beam search中。同时结合数据增强，模型平均等方法进一步提升模型的鲁棒性和准确率。

三等奖团队：中移在线

基于wenet端到端技术在重口音识别中的应用

中移在线的aizyzx团队由团队代表任玉玲进行分享。该团队重口音语音识别方案基于wenet设计，模型主要包括含三个部分，分别为共享的encoder、ctc解码器、attention decoder。其中，attention decoder采用u2 结构。为了丰富训练数据语音特征和语音识别抗噪能力，数据预处理加入音速、音量扰动和频谱掩蔽。字典根据常见汉字及英文单词整理5967行，分词时未登录词标记。训练时使用 ctc 和 attention loss 联合优化，并且通过 dynamic chunk 的训练技巧，使 shared encoder 能够处理任意大小的 chunk。解码时先使用 ctc decoder产生得分最高的多个候选结果，再使用 attention decoder对候选结果进行rescoring，并选择重打分后加权得分最高的结果作为最终识别结果。

k2分享：小米ai实验室

k2的核心算法及其应用分享

直播活动中，我们还邀请到小米ai实验室的康魏进行《k2中核心算法——可微分有限状态自动机的原理及应用》主题分享，并对团队在rnn-t模型上的研究进展进行介绍。

第一部分，康魏详细介绍了k2中fsa的特点及其作用，并且通过一个简单的ctc建模的例子阐明了使用可微分有限状态自动机进行序列建模的原理，最后讲解了使用k2框架进行高效解码的方法。第二部分，主要围绕团队在rnn-t训练和解码上做的优化和改进，例如团队提出的pruned rnn-t损失函数，使rnn-t模型的训练速度得到了极大的提升，同时，团队自研的基于gpu的rnn-t并行解码方法也让rnn-t类模型的部署更加高效。最后，康魏分享了团队在rnn-t模型上做的一系列探索演进，实验结果表明，rnn-t模型在各大开源数据集上都取得了业内最好效果。

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？