magic data-凯发体育网

发布时间 : 2022-10-20 阅读量 : 319

关于虚拟数字人的起源最早可以追溯到上个世纪八十年代的日本经典动画片《超时空要塞》的女主角林明美。作为虚拟偶像的开端，动画公司以她的虚拟形象发行唱片，虚拟人第一次进入了现实世界。

2000年-2016年，虚拟数字人还只是停留在研究阶段。2016年以来，深度学习和元宇宙的出现，使得虚拟偶像一夜火遍全世界。

虚拟数字人根据驱动方式的不同可分为ai智能驱动型和真人驱动型（动作捕捉技术）。在真人驱动型虚拟数字人中，真人也被称为“中之人”，配合动作捕捉设备，让虚拟数字人能够与观众进行实时交互。而ai智能驱动型虚拟人，则是通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策输出文本，驱动人物模型生成相应的语音与动作与用户交互。由于虚拟数字人的口型和微表情等微动作较多，真人拍摄耗资巨大，ai语音口型驱动成为主流。

ai语音驱动又称为虚拟形象语音动画合成技术（voice-to-animation），用户通过输入文本或语音，以一定规则或深度学习算法，生成对应的3d虚拟形象的人脸表情系数，完成口型和面部表情的精准驱动。开发者可以快速构建丰富的虚拟形象智能驱动应用，如虚拟主持人、虚拟客服、虚拟教师等。根据输入内容的不同（文本/语音），可以分为三种驱动方法：

1、语音驱动
语音作为驱动源头。将语音输入到深度模型，预测嘴型和面部微表情系数。该方法不受限于不同人、国家，但是受到语音特性（音色、强度、噪声等）影响较大，较难提升模型的泛化能力。
2、音素驱动
文本作为驱动源头。将文本时间序列转换成音素时间序列，并输入到深度模型，预测嘴型和面部微表情系数。该此方法与语音无关，只与文本内容相关，不受语音特性变换影响。但是模型受限于不同国家的文本语言（中英等）；同一文本内容、不同类型的合成声音，最后合成的口型及面部表情相似度高，缺乏风格和特性。
3、语音和音素多模融合驱动
语音和音素同时作为驱动源头。该方法融合语音和文本两个模态的信息，驱动系数更准确，效果更好，但模型更复杂。

近期，百度推出了语音驱动虚拟数字人全身动作的算法框架speech2vedio。是一种从语音音频输入合成虚拟人全身运动（包括头、口、臂等）视频的任务。根据其算法框架，预计产生的视频在视觉上较为自然，且与给定的语音一致。

该论文作者将3d骨骼知识和模型学习的个性化语音手势字典，嵌入到整个模型的学习和测试中。通过3d人体骨骼知识限制生成的动作幅度，限定符合正常人类肢体的伸展范围，通过语音驱动算法合成符合语音场景的动作，形成协调一致，口手合一的虚拟数字人形象。其算法流程如下：

出自miao liao. et.al《speech2video synthesis with 3d skeleton regularization and expressive body poses》

该系统的输入是音频或文本，用于训练lstm深度模型。使用文本到语音（tts）和语音到文本（stt）技术实现音频和文本互换。lstm的输出是将人体、面部和手部的3d联合模型参数化，形成一系列人体姿态，再通过gan（生成对抗神经网络）合成最终的虚拟人形象。

ai语音驱动虚拟数字人作为虚拟人落地的核心技术，不仅大幅节省了制作成本，同时精细化的培养了虚拟数字人口手合一的协调性。

自2021年以来，相关部门纷纷出台政策大力支持人工智能、区块链、大数据等产业的发展，而虚拟数字人产业则是这些产业的重要组成部分。根据量子位发布的《虚拟数字人深度产业报告》预测，到2030年，我国虚拟数字人整体市场规模将达到2700亿元。

而所有的虚拟数字人其背后的算法和模型都需要高质量的数据进行大量训练、测试、调参才能达到最终的最优效果。数据作为虚拟数字人的“基础设施”，其重要性不言而喻。

magic data 作为全球领先的ai数据凯发体育网的解决方案提供商，拥有海量经由专业录音棚录制的高质量数据集。magic data tts数据集涵盖天津话、东北话、四川话、上海话、广西话、长沙话众多方言。同时，拥有英语、葡萄牙语、韩语等多语种tts数据。并能够匹配男声、女声、童声、二次元、甚至rap说唱等各类需求。让虚拟数字人的互动拥有更多丰富的可能性，助力企业实现业务增长。

东北话男声tts数据集：

中文男声tts多情感库：点击了解更多

中文女声tts数据集：

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？