magic data-凯发体育网

发布时间 : 2020-11-27 阅读量 : 2074

有这么一个笑话，四川老太太在异地乘车，因人多被挤得直喊“孩子丢了”，大家纷纷帮她找孩子，最后她指着旁边的鞋子，大家恍然大悟，她找的是被挤丢的“鞋子”。

关于方言，中国俗话说“十里不同音，百里不同俗”，方言给跨地域沟通带来诸多不便，人与人沟通尚且如此，更何况基于语音识别的人工智能设备呢？

提升方言识别率有利于优化ai产品体验

随着智能音箱、智能客服为代表的智能语音市场的不断扩大，方言成为语音交互体验的一大障碍。受方言影响，很多人讲普通话也夹带方言特色。比如广州人用粤语问智能音箱“我要不要返工”（注：“返工”在粤语中指的是“上班”），音箱可能给出“如果感觉不够好，你可以再做一次”之类答非所问的对话。

智能语音设备要想进一步扩大市场，满足不同地域用户使用需求，ai模型需要大量的方言数据集。对于智能客服来说，ai掌握多种方言，能够帮助客服提升服务质量，实现机器人“无感化”体验；也能帮助智能家居设备提高方言识别能力，更加精准识别主人命令，从而完成相应的操作。

自然对话数据集让ai学习原汁原味的方言

对于这一需求，magic data针对多方言自然对话场景和朗读场景，采集和标注多种方言对话数据集和口语朗读式数据集。数据集产品覆盖七大方言，帮助ai模型有效提升语音识别准确性。

为最大限度提升ai模型对方言的识别准确率，magic data采集的对话数据来自自然、真实的对话场景，表达风格口语化，对话自然流畅。

大量方言口语朗读式数据集满足模型训练需求

magic data拥有超过一万小时的方言数据集储备量，除了方言自然对话数据集外，magic data还有方言口语式朗读数据集，方言数据集覆盖北方官话、吴语、湘语、赣语、闽语、粤语、客家话等七大方言，包括四川话、广东话、上海话、武汉话、长沙话、闽南话、郑州话、东北话等具体方言。

匹配发音词典助力模型高效训练

magic data的各个方言数据集，和一般语料库相比，除了音频和文本信息外，还包含了以下几个方面：

字词表：语言模型的核心点是基于方言语音的文本用字一致性，但因普通话和方言语音系统差异巨大，导致方言书写用字方面存在困难，magic data通过字词表为方言设定标准的用字体系，规范统一写法。

常用字词映射表（以上海话为例）

发音词典：为降低有限词汇（out ofvocabulary）对识别率的影响，magic data研发了自主知识产权的发音词典标注系统。发音词典词条和magic dataasr数据集相匹配，并且覆盖字词在真实场景下的发音，包含了每个字单独发音，以及上下文中的真实发音包括变调信息等。方言发音词典包含超过10万条通用式词条，从而加快oov问题的解决。

发音词典样例（以上海话为例）

平行语料：字词表和词典外，magic data方言口语朗读式数据集还提供平行语料，即方言文本对应的普通话文本。例如：上海话“吾明朝真呃有事体哎”，其对应的普通话文本为“我明天真的有事呢”等。

magic data凯发体育网址官网样例含平行语料截图（以上海话为例）

数据集是破解语音识别中方言问题的关键。市场正在逐步重视方言识别，各大厂商也开始涉足这一领域。magic data提供丰富的方言数据集，帮助提升ai模型方言识别层面的准确度，扩大人工智能产品的市场投放范围，推动人工智能产品的发展和普及。

更多数据集欢迎咨询客服：400-900-5251，或者在凯发体育网址官网进行了解。

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？