magic data-凯发体育网

发布时间 : 2022-02-14 阅读量 : 506

2022开年，magic data 和虚拟数字人制作公司facegood，以及清华大学，思必驰等机构，举办了一场虚拟数字人开源技术研讨会。magic data 创始人兼ceo张晴晴博士受邀出席论坛。在论坛上，就虚拟数字人驱动技术、软组织动作捕获跟踪技术、交互技术、数据处理技术进行了热烈的交流。

magic data 多模态数据处理系统annotator®5.0，为虚拟数字人的底层架构提供了基础重要的多维度数据支撑。

不断涌现的虚拟数字人 在元宇宙的巨大的市场中，高精智能的虚拟数字人仿佛一夜之间渗透到了各行各业，正吸引着海内外厂商加速布局元宇宙赛道。能在另一个宇宙中遇见不同声音、样子甚至不同性别的自己，这让生活在现实中的人们产生了真实的期待。

虚拟数字人需要多模态的技术驱动和丰富的数据支撑，才能让数字人“立体”起来。过去的数字人，更多的是只是一种感官存在的“物品”。他们会微笑，会说话，会唱歌，但他们没有情感，不会和人交流。

情感人机交互 ——“对话式ai”技术与数据

人工智能的终极形态是情感需求，虚拟数字人能够刺激到人类的情感需求，前提是他们必须做到与人交互，“对话式ai”技术与数据，能够实现虚拟数字人与人类交流相处。

“对话式ai”需要全流程的准确和高效，将用户语音转换为文本，理解文本含义，搜索符合语境的最佳应答，最后使用文本转语音工具提供应答。

在技术层面，对话式 ai涉及语音识别、自然语言理解和语音合成等核心技术。想要通过这些技术实现人和机器之间更自然的对话，面临两点技术挑战：

一是个体语言体系的差异化。由于所处地域、文化、教育背景的不同，每个人的语言表达都是独特的，这种个性化在人与人之间的沟通中都难免出现理解偏差，更何况是一台机器。对于ai而言，中文不是一种语言，而是13亿种语言。

二是对话式口语常常会有语序颠倒、犹豫、迟疑产生的停顿。在复杂的多人交互场景中，也不可避免会出现语句打断、抢话、交叠音等问题，这些语音特征为 ai 建模带来了很大困难。

真实的对话数据和多语种语料库建设是解决上述问题的关键，为机器注入知识图谱、中文、方言、外语等多种语料，才能让机器像人一样理解自然语言。

1、语音识别技术和数据

语音识别，主要是将人类语音中的词汇等内容转换为计算机可读的输入，这是计算机学习人类语言的第一步，上述提及到的千人千面的个性化表达以及对话口语颠倒、犹豫、迟疑等，这些被输入的“内容”对于机器来说都是非常重要的学习要素。

2、语音合成技术和数据

语音合成，主要是将计算机产生的文字（自己的或者外部输入的）转变为人类可以听得懂的、流利的汉语口语的输出。人类在语言表达的时候总是附带着语气与感情，语音合成的音频是为了模仿真实的人声，所以需要对文本进行韵律预测，什么地方需要停顿，停顿多久，哪个字或者词语需要重读，哪个词需要轻读等，实现声音的高低曲折，抑扬顿挫。

3、自然语言理解技术和数据集

自然语言理解，主要是计算机通过对输入数据的理解和分析，让人类与机器能够用自然语言进行有效地通讯交流，不仅让机器能够“听懂人话”，更能让机器“讲人话”。

更多数据集样例可在magicdata凯发体育网址官网进行查看：https://www.magicdatatech.cn/datasets

希望未来虚拟人不仅可以和人交流，还可以千人千面，能够真的和“我”一样，有一样的动作习惯，有常用的表情，有熟悉的语气等等。在人机交互过程中，机器要想感知人的情感色彩，光靠声音是不够的，更多信息传递蕴含在面部表情或语言内容中，情绪感知是一个多模态综合评价的结果。而这些，需要定制化对每个个体进行多模态的数据采集和刻画。

magic data 多模态数据处理系统annotator®5.0，为虚拟数字人的构建提供了最基础最重要的多维度数据支撑。在annotator®5.0底层结构上，借助了大量ai技术，通过对数据的预处理，捕获基础刻画能力，再通过人工后期精细化加工的方式，进一步优化特征，从而最大程度保证了对每个个体的刻画能力。

pc端试用链接：凯发体育网-凯发体育网址

数据是人工智能的基础建设，不论元宇宙还是虚拟数字人，一切有关人工智能的构建都离不开数据，合理有效的使用数据，才能让机器更好地理解人类，让人类更好地探索未知。

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？