最新发布!查看 magicdata 成品数据集

magic data-凯发体育网

press images

发布时间 : 2021-10-16     阅读量 : 758

小爱5岁啦!一路走来,有ai有你 ,这份大礼请收下!

5年,1826个日夜,43824个小时

5年很长, 足够婴儿牙牙学语到问出“十万个为什么”;

5年又很短, 它只是人生的十几分之一,历史一个片段,宇宙长河中闪光那一瞬;

5年时间, 足够一个国家完成一个发展规划;足够一个企业成长壮大。

5年前的现在,我们从0起步;五年后的现在,我们为100家以上国内外企业服务,积累超过20万自有数据集,打造1个数据标注平台,1个开源社区,荣获n个行业奖项。

magic data5岁啦!时光飞逝,在众多客户陪伴下,我们沐雨栉风,不负韶华;我们风雨同舟,用数据叩开ai新世界,实现腾飞与梦想。

凡皆过往,皆为序章。上一个五年,我们厚积薄发;下一个五年,我们砥砺前行!

恰逢magic data五周年之际,为感恩新老客户一直以来的陪伴,magic data将开展“5周年特别活动”:从10月15日到12月31日止,凡累计购买magic data600小时以上语音训练数据集,即可获赠180小时中文对话式训练数据集及20小时自然甜美中文tts训练数据集。

20万 自有数据集产品

目前,magic data拥有超过20万自有训练数据集,其中超过12万小时对话式数据,超过6万小时朗读式数据,超过2万小时自发式数据,涵盖asr、tts、nlp、发音词典等。

magic data的数据服务语种超过60种语言和方言,既有常用语种如英语、中文、德语、法语、荷兰语、意大利语等,也有马来语、泰语、印尼语等特色语种。

数据在方言方面涵盖八大方言区方言,如粤语、上海话、四川话、闽南话等。magic data采集的对话数据来自自然、真实的对话场景,表达风格口语化,对话自然流畅。

magic data针对不同场景开发相应的数据集,数据集内容上丰富多样,如车载噪音、客服、线上会议、人机交互、自由对话、唤醒词等,满足不同应用场景下的模型训练。

为降低有限词汇(out of vocabulary)对识别率的影响,magic data研发了自主知识产权的发音词典标注系统。发音词典词条和magic dataasr数据集相匹配,并且覆盖字词在真实场景下的发音,包含了每个字单独发音,以及上下文中的真实发音包括变调信息等。方言发音词典包含超过10万条通用式词条,从而加快oov问题的解决。

其中热门数据如中文普通话数据量超过9万小时,英语超过2万小时,这些数据广泛应用于智慧出行、智慧金融、智能社交、智慧家居、智能终端等各大行业。

获赠一:180小时中文对话式数据集

客户购买超过600小时以上语音训练数据集,可获赠180小时中文对话式数据集。该中文对话数据集由湖南、山东、山西、四川等地超过600人参与录制,根据给定主题进行自由对话,话题丰富,对话内容包括科技产品、日常生活、文化娱乐等。数据集总时长为180小时。数据在安静室内录制,正确率可达97%以上。可用于智慧家居、智能社交、智能终端等各大场景。

获赠二:自然甜美中文tts训练数据集

客户购买超过600小时以上语音数据集,获赠180小时中文对话式数据集同时,还获赠20小时自然甜美tts训练数据集。

该数据集在专业tts录音棚录制,录制设备为专业级高保真麦克风,音色为甜美女声,校对正确率达到99%。该数据产品话题涉及娱乐、家居、生活、金融等,可用于车载导航、智能家居、智慧金融等智能化场景。

即刻与 magic data 建立联系?

联系凯发体育网

top
联系凯发体育网
网站地图