magic data-凯发体育网

发布时间 : 2022-07-25 阅读量 : 190

近年来，随着人工智能技术的发展，语音识别的性能得到显著的提升。很多公司对外宣称，语音识别技术的准确率已经达到98%以上，难道语音识别的效果真的超过人耳了吗？

当然不能下此结论。毕竟人脑才是世界上最精准的仪器。网上有句俗语说的很好，“离开测试集说准确率一如耍流氓”。当在安静环境下，识别准确率大概能到98%，但是当处于嘈杂环境，准确率就会迅速下降。

当处于一个派对上，语音识别机器很难从重叠的语音中拾取目标说话人的语音，更难以识别准确，这就是语音识别领域的经典问题——鸡尾酒会问题（cooktail party problem）。在各种声音的混杂中，听到自己想注意的声音，是人类的本能。但是对于机器来说，这就是“一锅粥”，必须通过语音分离技术，先将目标语音分离出来，之后才能进行识别。

「基于神经网络的语音分离算法」

语音分离是语音识别中解决“鸡尾酒会”问题的第一步。在语音识别的前端加上语音分离技术，把目标说话人的声音和其他干扰分开就可以提高语音识别系统的鲁棒性。鸡尾酒会问题指的是采集的音频信号中除了主说话人之外，还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。

目前主流的语音分离算法是基于神经网络，神经网络的用途主要是学习一个理想二值掩蔽（ideal binary mask，ibm），来决定频谱中的目标信号在哪些时频单元（time-frequency units）中做主导。如果把一个听觉信号在时间域和频率域两个维度（时频二维）进行表示，我们可以把时、频这两个维度表示成一个二维矩阵，这个矩阵中的每一个元素称为一个时频单元。如果对于目标信号不需要分得那么细，只需要分一次——属于目标声源，或是背景噪声，那么时频单元就可以量化为2个值，比如0和1，这便是二值。这样，从理想二值掩蔽的角度考虑，这个问题就变成了一个有监督学习（supervised learning）的分类问题。

「多模态融合的语音分离算法」

除了上述纯语音做语音分离，解决鸡尾酒会问题，近期还有不少文章以多模态的方法解决鸡尾酒会问题。谷歌从youtube上搜寻了10万个高质量讲座和演讲视频生成训练样本，通过约2000个小时的视频片段分析，训练出基于多流卷积神经网络（cnn）的模型，将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。实验中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨，并对应上相应的说话者。

无论是多模态还是单模态的语音分离算法，都离不开对话语音数据的支撑，多个说话人对话语音数据采集经费高、标注困难。而magic data作为全球领先的ai数据服务提供商，能够为算法工程师们提供众多高质量的数据进行支撑，为解决鸡尾酒会问题提供实验机床。

噪音音频数据集：点击了解更多

家居噪音音频数据集：点击了解更多

车载噪音音频数据集：点击了解更多

edward colin cherry在出版于1957年的on human communication一书中说道：“到目前为止，还没有哪个机器算法能够解决‘鸡尾酒会’问题。”没想到到目前为止，这句断言仍然没有被完全推翻。

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？