magic data-凯发体育网

发布时间 : 2022-07-11 阅读量 : 274

语音助手已经成为生活中必不可少的小帮手。但是有的时候在室内用着得心应手的语音小助手换到更室外可能就变成“傻憨憨”了。就如同我们人类一般，小萌新—语音小助手到了新的环境，也会慌乱无措。就如同中国人听印度人说英语，自认为自己英语听力、口语都很棒的人，在第一次听带着咖喱味的印度英语时，也会怀疑自己听到的真的是英语吗？人类天生拥有适应环境的能力尚且如此，更遑论人工智能算法了。语音小助手对周遭环境敏感，是对域的不适应。迁移学习一直以来是语音识别、语音合成、说话人识别等各个语音领域的难题。

语音助手内部的人工智能算法往往是从大量数据学习得到，有时数据无法覆盖全部的应用场景，这就导致面对一些新场景，如弧形的会议厅、开阔的广场等场景下，语音识别的准确度大大降低。亦或者，对于大量录音棚录制的语音对话数据训练的模型，无法直接在一些专业领域被运用，如电商客服、金融智能客服、智能医疗领域等垂域。由于缺乏域内知识，导致模型效果在新的场景下，效果不尽人意。如何将模型自适应到各个垂域，一般会从两个方面考虑。

「迁移学习算法」

迁移学习指的是我们在a场景数据训练的模型，可以适应迁移学习算法，将这个模型应用到其他场景下，尽可能的保持这个模型的性能不受环境域的改变而受到影响。迁移学习放松了训练数据必须与测试数据独立且同分布(i.i.d)的假设，激励我们利用迁移学习来解决训练数据不足的问题。在迁移学习中，训练数据和测试数据不需要是i.i.d。不需要对目标域内的模型进行从零开始的训练，可以显著降低对目标域内训练数据和训练时间的需求。据文献《s. j. pan and q. yang, “a survey on transfer learning” 》总结，迁移学习算法根据不同情况可以分为以下几类：

纵然上述迁移学习算法众多，但是算法的执行依然离不开域内数据的支撑。如果没有域内数据，上述的算法几乎都无法实施。

「域内数据自适应」

最简单有效的迁移学习方法，就是用少量的域内数据fine-tune已有模型。使得已有模型自适应到当前数据场景。上述迁移学习算法也离不开域内数据的支撑。而语音助手要想在应用于各个垂域，离不开在各个垂域数据上学习。这就需要magic data这样的ai数据凯发体育网的解决方案提供商为众多工业界和高校研究者提供垂域的数据，以支撑上述迁移学习算法的研究和语音助手应用于各个领域。magic data拥有各个领域、各种语言、多种场景的语音对话数据，样例如下：

中文普通话对话音频数据集：

粤语车载音频数据集：点击查看详情

日语对话音频数据集：点击查看详情

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？