最新发布!查看 magicdata 成品数据集

magic data-凯发体育网

press images

发布时间 : 2021-11-04     阅读量 : 446

magic data创始人兼ceo 张晴晴

作者丨巴里 编辑丨子钺 图源丨受访者

“能够让机器理解人的所思所想,并能够将这些内容转化成文字是一件很酷的事情。”

17年前,还在北邮读通信的本科生张晴晴偶然间接触到了语音识别。她当时也许没有料到,在接下来的17年,语音识别会与她的理想与事业结下不解之缘。

在人工智能三驾马车中,数据是算法的基础,就好比原油,只有经过清洗、分类、标注、质检和筛选等结构化过程,才能用于ai模型训练。

2015年,已经在中科院声学所从事对话式ai研究的张晴晴意识到,如果不从根本上解决数据的问题,人工智能在未来几年仍然会面临巨大的挑战。

就这样,肩负着这份理想与情怀,一位女科学家开启了创业之旅,创立了magic data。

据介绍,目前,magic data已处于ai语音数据服务行业的第一梯队,为超100家国内外头部互联网公司、移动通信、知名算法公司等提供专业的ai数据凯发体育网的解决方案。2020年,magic data的营业收入接近亿元。

同时,近两年来,毕马威、华为、百度、亚马逊、英特尔等大厂人才纷纷加入magic data。尤其是今年6月,前华为资深销售总监张涛也正式加盟magic data任合伙人兼销售副总裁。

正值magic data成立5周年,创业邦独家采访了magic data创始人兼ceo张晴晴、合伙人兼销售副总裁张涛,深入解读对话式ai如何赋能企业数字化转型,以及女科学家又是如何蜕变成为一家ai数据服务公司的创始人。

女科学家曾为科研采集数据,立志为ai输送“原油”

从事语音识别研究已经17年的张晴晴,在最初接触到这个专业时可以说是兴趣使然。“语音信号数字处理”这门选修课,让她第一次萌生了对语音的兴趣。

后来在保研过程中,张晴晴看到中科院声学所在招语音专业的研究生,毫不犹豫立马报了名。最终,她在北邮通讯学院600多个报名的学生中脱颖而出,以第7名的成绩保送到了中科院声学研究所中科信利语音实验室,师从中科院声学所首席科学家颜永红。

后来,张晴晴成为实验室中最年轻的副高,并且获得了2014年度中科院杰出科技成就奖,又在法国国家实验室从事博士后相关工作,可谓一个妥妥的女学霸。

自此,如何构建更好的模型,让机器更好地理解人说的语音成为了她的研究目标。

张晴晴的博士论文研究的是中国人说英语的问题。她需要用200个中国人说英语的语音进行训练模型,分析出中国人的发音特征,从而让机器用最适合的方式理解中国人说英语的特点。

为此,她收集了200个人的声音,不仅包括亲朋好友,甚至她碰见走在大街上的路人,也会习惯的问一句:“您能帮我来录个音吗?”经过300天的时间,张晴晴终于收集齐了这200个人的声音,将所有语音进行清洗和分类,并把数据送到系统模型里,仅花费了1天的时间系统就给出了第一个实验结果。

301天的时间,300天都在收集和处理数据,张晴晴发现,像这样的现象并不是只有她一个人遇到,这是很多ai科学家共同的难题。在人们普遍印象里,ai科学家每天所做的工作应该都是在构建高大上的模型,但实际上绝大多数的时间都用在了与数据做挣扎上。

那么,有没有可能创造一个大型的训练数据集,来让所有科学家和企业都能够使用呢?这一想法在张晴晴的脑海中油然而生。

直到2016年,整个市场的时机逐渐成熟。张晴晴观察到bat等互联网巨头对于数据的需求越来越多。实际上,在这几年,人工智能曾经出现过三起三落,张晴晴的大部分师兄师姐在毕业后也都转型到了其他行业。

在人工智能三驾马车中,数据是算法的基础,就好比原油,只有经过清洗、分类、标注、质检和筛选等结构化过程,才能用于ai模型训练。如果不从根本上解决数据的问题,人工智能在未来几年仍然会面临巨大的挑战。

作为一个人工智能从业者,她希望这一次的人工智能可以一直向前,不再衰落。也正是肩负着这样的情怀和理想,终于在同年11月,magic data在北京正式成立。

经过五年的发展,公司已经从最开始10个人的小团队发展到100多人规模。在这其中,有一件事始终让张晴晴印象深刻,直至今日,她也认为是创业过程中最大的挑战之一。

2017年,公司刚刚成立一年,为了节省成本,张晴晴只能租下在北京海淀区的一个商住两用楼的房间里办公。那段时间,北京大兴区的几场大火让存在消防隐患的办公楼都受到了波及。

一个周日的下午,消防队员走进大楼,公司被告知这个楼的消防不合规,需要当天晚上立刻撤走。当时,办公室里一共50个员工的办公物品,张晴晴需要在3-4个小时的时间里,把所有人的电脑、座椅、办公用品全部搬走。面对突如其来的打击,张晴晴仿佛无所适从。

“如果我是一个员工,听着我的老板打电话告诉我说我们要立刻搬家,员工会觉得这个公司很不靠谱吧,还要不要在这里继续工作?”这些话不由自主地浮现在了张晴晴的脑海里,开始忐忑起来。但她很快晃过神来:不可能以一己之力完成,需要求助团队的力量,马上告诉大家。

听到这个消息之后,所有员工没有一个人抱怨。50个员工仅用一晚上的时间就把所有东西搬到了新的办公楼里,第二天团队还面临着给客户交付数据。

第二天10点,所有人准时打开了电脑开始办公。而在那个时刻,公司还正在忙着a轮融资。投资人看到了整个过程以及所有人的凝聚力,毅然决然地投下了a轮。

“公司一路发展过来,几乎碰到了所有创业者都会遇到的问题,早期甚至有可能明天就发不出工资了。但好在我们一直坚信公司的目标和战略,如今终于迎来了人工智能行业的爆发。”张晴晴说。

据艾瑞分析《2020年中国ai基础数据服务行业发展报告》显示,2019年中国ai基础数据服务行业市场规模达到30.9亿元,其中语音类数据需求规模占比为39.1%,预计到2025年数据市场规模将突破100亿元,年化增长率21.8%。

伴随着数据市场的爆发,今年年初,magic data也已完成b轮融资。目前,公司已经处于ai语音数据服务行业的第一梯队,为全球超过100家顶级人工智能企业提供相应的数据服务,而且规模也已经达到了上亿的小目标。

magic data-融资历程

打造对话式ai三大基石,赋能企业数字化转型

公司成立之初,张晴晴就把她一直在研究的对话式ai(conversational ai)作为公司发展重点。在她看来,对话式一定是ai人机交互的终极形态,突破对话式形态代表着强人工智能时代的到来。张晴晴之所以创立magic data很重要的一点就是要把公司定位于ai人机交互这一场景,让人和机器可以以一种非常自然的方式进行交流。

从技术角度看,对话式ai涉及语音识别、自然语言理解和语音合成等技术,想要通过这些技术实现人和机器更自然的对话,面临着更大的难题。对话式口语常常会有语序颠倒,犹豫、迟疑产生的停顿,多人同时交流甚至出现语句打断、抢话、交叠音等复杂语音场景,这都为 ai建模带来了很大困难。

目前,从数据行业看,行业提供的大部分人工智能数据都以朗读式训练数据为主,而人与人自然的对话式数据对训练对话式 ai 有更加关键的作用。“要想把机器训练成人,使得机器可以像人一样能够理解语言,这就需要我们为机器注入知识图谱、中文、方言、外语等等,这确实有很大的难度,但这正是我们意义所在。”张晴晴说道。

如今,ai训练数据集、数据智能化标注平台annotator ® 5.0以及magichub.com开源社区已经构成了magic data业务的三大基石。

一方面,对于没有自己数据的企业,或者企业在合规的角度不能触碰数据又需要解决ai的问题,都可以从magic data采购合规的数据集。这些数据已经按照一定的行业和场景的规则,进行了个人信息的脱敏性处理,同时有着严格的保密性存储,从而帮助企业既快又合规地搭建自己的基础系统。

值得一提的是,magic data是国内第一批拿到iso27701认证的数据服务商,27701是全球最新的个人隐私认证,在数据处理上遵循国际国内的最高标准。

目前,magic data拥有超过200000小时数据集,其中超过140000小时对话式ai训练数据集,这些数据集经过多维度的标注,包括语音到文本的转换,以及说话人性别、年龄、情感等标签,这些标签能够帮助开发者在解决多语言对话式ai上提供更多的信息,从而帮助优化对应的模型。

在语种上,magic data拥有超过60种语言的数据集,还有部分针对外语数据构建的双语混合数据集,如泰语英语混合数据集、马来语英语混合数据集等,从而帮助开发者解决混合语音识别的问题。

在场景和行业上,magic data构建了五大行业垂类ai数据集,包括智慧出行、智能社交、智慧金融、智能家居以及智能终端。以智能座舱为例,整个行业在语音识别、语音合成、自然语言理解方面,普遍还面临识别率低、机器听不懂、合成声音比较假等难题。

magic data合伙人兼销售副总裁 张涛

据magic data合伙人兼销售副总裁张涛介绍,国内车企在拓展海外市场时,会涉及到要能够识别不同地区用户的英语口音问题。通过大量的对话数据集或者语料库,magic data已经将这些共性抽取出来,从而形成了一个标准ai训练数据集。

客户通过这些数据集来训练它的模型,就能够让整个人机交互提升到更高的水平。除此之外,magic data还能够提供智能化标注平台annotator ® 5.0,为企业提供私有化部署,在保证数据安全的情况下帮助客户降本增效。

目前,有不少传统车企和造车新势力都已经成为magic data的客户。

在大多数人的印象中,会把数据标注认为是一项没有技术含量的活儿,甚至认为只需要中专生、大专生审核对错、是否敏感即可。但其实,数据标注是要将现有的专家知识体系和知识图谱融入到系统中去,也就是“教机器做事”。

随着ai数据处理的复杂度越来越高,就需要更多垂直行业和场景的背景知识。因此,ai数据标注这个动作未来会越来越会由懂行业knowhow的专家来完成。

但是每个企业不可能都请到专家天天做数据标注这样最基本的动作。要能够做到真正地降本增效就需要一款能够高效且自动化、智能化的数据处理工具,magic data将其称之为office for ai——annotator ® 5.0智能化标注平台。

经过5年的迭代,这套系统不断给各大企业处理音频、视频、文字等多模态数据,如今annotator ® 5.0不仅仅是一个数据标注平台,更是在此之上同步完成了企业的数字化、信息化以及智能化这三个步骤。

众所周知,企业的系统中都存在大量的音视频等非结构化数据,并没有被智能化的挖掘出来释放出其价值。而这套系统就可以帮助企业把这些杂乱无章的数据进行相应的标签化,并存储到企业的数据库中,从而便于企业基于这些数据再进行挖掘,为决策分析提供参考。

张涛谈到,在这个标注系统中,已经有大量专业术语的知识沉淀。在标注的过程中,机器可以像帮助人工解决一部分标签化的工作,而人只需要在此基础上做一些校正即可。整体操作效率预计能够提高100%以上,综合成本反而可以降低50%。

同时,为了满足更多行业和ai从业者对于训练数据的需求、降低数据使用门槛,解决找数据难的问题,今年4月上线的magichub.com开源社区也体现出了magic data在整个行业中的前瞻式布局。

迄今为止,开源社区已拥有超过60个包含语音识别、语音合成、发音词典、自然语言理解等不同类型的开源数据集,覆盖全球超过3000名开发者,数据集累计下载量超过7万小时。magichub.com开源社区除了开源大量数据集外,还与各大高校和相关机构合作,通过组建开发者社群、开展培训和赛事,致力于打造全球ai开发者生态。

科学家创业重在思维转换,要以客户为中心

回顾magic data5年来的发展,也是一部科学家的创业史。有投资人就曾说过,科学家创业者掌握着核心技术以及商业转化的能力,这是投资者最为关注的。但对于这些科学家创业者,最大的挑战可能在于缺乏倾听市场和客户需求的意识。

刚刚创业时,张晴晴感觉到的是既有未知的兴奋,也同时有创业0到1所带来的不确定感。“最开始,甚至财务的小姑娘都在帮我们标数据,大家没有什么区别,只要能够一起解决,大家都会伸把手”。从研究学术的科学家到成立公司面临商业化的难题,给张晴晴带来的最大挑战来自于思维上的转换。

“最开始和市场销售的同事、客户交流的时候,可能大家都不是在一个频段上。”但对于张晴晴来说,其实并没有什么退路,只能迎难而上去解决这些问题。

科研人员普遍追求的是类似于1 1=2这样一个客观真理,然后不断地思考、迭代,并且很多时候都是独立完成,但作为一家商业化定位的企业服务公司,更多时候要去看客户遇到了什么问题,并且在考虑投入产出比的情况下,如何帮助客户解决现有的问题。

张晴晴谈到,我们很多时候追求的理论上极致,不见得是一件好事,加之ai本身的发展速度非常快,如果按照现有规则解决,有可能半年后会发生一些调整,这么看来,当期的投入其实可能是不合适的。所以,科研出身的创始人在思维上很重要的转变就是要从理想化、追求极致的状态转变为以客户为中心。

实际上,这对于一个已经做了十几年科研的人来说是一个极大的挑战,但作为一个公司的创始人来说,学习能力是最为重要的能力之一,包括对于新事物的接受能力、思考问题的体系方法。这考验的是创始人是否能够基于自身的学习能力,举一反三的不断克服新的问题。

梅花创投、明势资本、策源创投、凡创资本等投资人从早期一路陪伴magic data走过来的投资机构也见证了张晴晴从一个科学家到企业家的转变。

张晴晴还清楚地记得,“天使轮的投资人看到我的状态时有一种焦虑感,怕我hold不住创业这件事情。但随着公司的发展,他们也看到了我学习和成长的过程,现在已经很信任我来做这件事情了。”

没有一个所谓天生的企业家,企业也不是一成之规,投资人最为看重的是创始人在面临挑战的过程中能不能快速成长、解决问题。“在公司早期阶段的时候,更重要的是要寻找到那些相信你并认为你是潜力股的投资人。面对投资人的疑虑,公司规模的发展就是对所有投资人最好的解释。”她说道。

今年8月,海天瑞声在科创板成功上市,成为了ai数据资源和数据服务领域的首家上市公司。对于整个行业来说,海天瑞声的上市是一个利好消息。

对于上市,张晴晴也给出了自己的答案:早期投资人更多时候还是希望公司能够按照我们认为对的方向发展。“我们也希望,在为行业提供训练数据集这样的基础之上,能够通过智能化标注平台这样系统化的输出,为未来各行各业提供更具价值的服务,从而可以帮助公司完成未来3-5年上市的目标。”

“上市是对过去工作的一个证明,肯定不是终极目标。”她认为,尤其对于企服领域,更要重视业务的扎实度。判断一家公司优劣与否不仅要看当期,也要看这家公司在当期之上未来的可能性,这也是有时两家公司营收相差不多,估值、市值却有天壤之别的原因。

不仅身为科学家,同时作为女性创业者的张晴晴也表现出了其坚韧的一面。“我在创业过程中都没有考虑过性别或是年龄的问题,作为一名拥有五年经验的创业者,我认为任何人创业之前不应给自己太多的预设,而是应该专注在事情本身,实现这个结果是最重要的。尤其在企服tob领域,更讲求专业性,能不能利用你的专业给客户带来价值,而这与创始人是否是女性都没有关系。”

对于一个创始人来说,只有两件最重要的事:一是看方向看战略;二是找到愿意做这件事的人一起往前走。最后,张晴晴笑着说,公司基于数据的战略是一件难而正确的事,如果还有什么遗憾的话,那就是吸引更多优秀的伙伴更早加入magic data,一起创造价值。

magic data五周年大合影

即刻与 magic data 建立联系?

联系凯发体育网

top
联系凯发体育网
网站地图