magic data-凯发体育网

发布时间 : 2022-08-12 阅读量 : 224

昨晚的朋友圈被雷军年度演讲刷屏，雷军讲述了他人生中多次经历的挫折与迷茫，并分享了穿越人生低谷的感悟，让每一位在创业路上的人都感同身受。

就在演讲快结束时，雷军顺手扔出了一个王炸——全尺寸仿生人形机器人cyberone。小编发现，功能介绍里，提到cyberone的听觉传感器配合音频算法，可识别6类45种人类情绪语音，外加85种环境音识别。

而这其中就包括夹杂着语种混杂的识别，例如："我的ipad不能下载app了，可以陪我去apple store修理一下吗"、"明天就是dealine了，我的paper还没有ready"、"老板的schedule需要调整，麻烦你check一下你的email"...

这种夹杂了英文的汉语频频出现在我们的日常沟通中，除了英文，其他小语种出现在中文语句中，在学术上称之为语种混杂（code-switch），是目前语音识别技术面临的重要挑战之一。对于人机交互语音识别系统，code-switch带来的挑战主要体现在下面三个方面。

「挑战 challenge」

————01 · 非母语口音严重————

中文中夹杂的其他语种非我们的母语，我们的发音会带有各种方言口音。例如，闽南普通话和天津普通话的口音都不同，更何况大家说的非母语的语言。汉语中共有八大方言，即：官话、吴语、湘语、赣语、客家语、闽南语、闽北语以及粤语。其中，官话是与标准普通话最为接近的一种方言，其他各种方言在声学发音以及语言学表现上都与标准普通话有着显著的差异。由于多数普通话使用者把普通话作为第二语言来掌握，他们的普通话发音不可避免地受到其方言母语发音的强烈影响。有资料显示，80%左右的普通话使用者带有不同程度的方言口音。当说话人带有某种方言口音时，针对标准普通话构造的语音识别器的性能往往会大幅下降。

————02 · 不同语言音素构成不同————

hay and bauer 在《linguistics student's handbook》(2007) 中研究过一些语言的使用人数以及类型学信息，当然也包括了音素的数量，其实验结果如下。横坐标表示人口（对数人口、log population），纵坐标表示元音的数量，每个小圆圈代表一个语言。左图是基本单元音的情况，右图是额外单元音的情况。

上述研究认为，音素的多少跟人口有关系，这就导致了多语种之间音素的不同。语音识别中，声学模型通常处理人类语言的原始音频波形，预测每个波形对应的音素，通常在字符或子词水平。语言模型指导声学模型，抛弃了在适当的语法和讨论主题的约束下不可能实现的预测。由于code-switch包含多个语种，之间音素构成的不同，会增加混合声学模型建模的困难。

————03 · 带标注的混杂语种语料库稀缺————

上面两个问题都是技术问题， code-switch语音识别所面临的本质挑战，还是带标注的混杂语种语料库稀缺。由于录制这类数据要求双语种甚至多语种人群，录制费用更高、耗费时间更长，因此混杂语中的语音语料库非常稀少。有些论文如qinyanmin的《data augmentation for end-to-end code-switching speech recognition》用tts数据扩充的方案来提高code-switch语音识别系统性能。

「凯发体育网的解决方案 solution」

针对code-switch语音识别所面临的挑战，解决问题的本质还是在于数据。假设有足够多的code-switch语音识别数据，可以通过让神经网络从大量数据中学习相关的口音、多样化音素信息等code-switch带来的问题，code-switch语音识别系统自然会更鲁棒。对于录制多语种混杂数据，可以通过专业的数据公司帮助算法工程师节省大量的人力、物力、财力。目前maigc data(北京爱数智慧科技有限公司)拥有用于多个场景、多个语种的相关语料数据，样例如下：

中英混合音频数据集：

口音英语朗读数据集：点击了解更多

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？