magic data-凯发体育网

发布时间 : 2022-10-27 阅读量 : 204

“hi sir，请播放莫扎特的钢琴曲”，“好的，请问您播放哪一首？”... 如今语音助手已经走入千家万户，无论是手机、平板还是智能音箱，几乎都配有随唤随到的语音小助手。

这些对答如流的语音助手，到底有多少词汇量？是否和人类一样需要从abc开始积累呢？答案是他们并不需要逐步积累，而是通过发音词典库，这个库中涵盖了语音助手能够识别的所有语音。

发音词典 (lexicon) 包含了从单词 (words) 到音素 (phones) 之间的映射，作用是用来连接声学模型和语言模型。发音词典包含系统所能处理的单词的集合，并标明了其发音。其与语音识别其他模块的关系如下：通过发音词典得到声学模型的建模单元和语言模型建模单元之间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间，用于解码器进行解码工作。我们的识别目标是单词序列 (句子的分词结果)，每个单词由提前构造好的发音词典 (lexicon) 转为对应的音素序列 (中文的音素通常指拼音中的声母和韵母)，即将单词序列转为音素序列。

在语音识别系统中，发音词典包含的数据量越大，对于提升语音识别的准确率效果越好。发音词典和语种相互对应，每个语种需要准备一个发音词典。当新词汇产生时，可以将这些词汇及对应音标添加进去，不断扩充词典规模。因此，词汇量、音标标注和校对的准确性是衡量该发音词典质量的重要标准。

目前，很多发音词典是自己生成的，准确性相对较低，将影响语音识别系统的性能。如何搜集到准确、大量、覆盖面全的发音词典，成为语音领域的又一难题。同时，由于发音词典的搜集、标注、清洗需要专业的语言学家和声学家把控，因此发音词典语料的开源甚少。

目前，magic data已建立了成熟的发音词典构建流程，积累了深厚的语音语言学基础研究成果。拥有包括粤语、闽南语、四川话、天津话、武汉话、长沙话、山西话、南昌话、上海话、客家话等各种方言。同时拥有众多常用的语种，包括英语、日语、法语、西班牙语、意大利语、德语、葡萄牙语、印尼语等语种的发音词典。

magic data的发音词典都经过全面的搜集、精细的标注、其中每个单词都经过人工校对，是一系列高质量的发音词典。这些发音词典可以用来构建更大、更全面、更准确的发音词典库，从而提升语音识别的准确率。发音词典样例如下：

中英发音词典：点击了解更多

法语发音词典：点击了解更多

上海话发音词典：点击了解更多

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？