magic data-凯发体育网

发布时间 : 2022-07-25 阅读量 : 279

2022年7月4日起，由中国科学院声学研究所、西北工业大学、新加坡a*star信息通信研究所、上海交通大学以及magic data (北京爱数智慧科技有限公司) 联合主办的 “iscslp2022对话短语音说话人日志挑战赛” (iscslp 2022 conversational short-phrase speaker diarization challenge, cssd) 自开展以来，已经收到四十多支国内外研究机构、大学及知名企业的参赛队伍注册报名，包括德国弗劳恩霍夫应用研究促进学会、微软亚洲研究院、日内瓦大学、德国奥格斯堡大学、中国科学技术大学、上海交通大学、西北工业大学、北京理工大学、deepgram、百度、网易、喜马拉雅、特斯联等。2022年7月24日，主办方正式向参赛队伍开放开发训练集和基线系统。

报名持续进行中：

开发训练集

主办方针对赛道“对话短语音说话人日志（sd）准确率”开放了以下训练数据集：

1、magicdata-ramc 包括351组多轮普通话对话，时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域，录制信息包括了环境和设备。请参赛者查看邮件进行数据集下载。

2、评估集（test），将于9月8日开放。

所有参与者都应遵守以下规则：

data：只允许使用magicdata ramc（openslr 123）、voxceleb data（openslr 49）和cn-celeb corpus（openslr 82）。数据增强可以使用两个噪声数据集，即 musan（openslr17), rirnoise (openslr 28)。
严禁以任何形式使用测试集，包括但不限于使用测试数据集对模型进行微调或训练。

3.允许多系统融合。然而不鼓励使用具有相同结构的系统进行融合。

所有模型都应在允许的数据集上进行训练。具体来说，预训练模型不允许使用其他数据集（包括未标记的数据）。

5、最终解释权归主办方所有。

基线系统介绍

为了帮助参赛者快速、高质量完成模型开发和训练，主办方提供了基线系统，提供给参赛者使用。我们使用vbx系统作为我们的基线系统，该系统使用resnet来进行说话人特征提取，使用ahc与vb-hmm 进行特征向量的聚类。

详细的使用教程请见：

打分工具介绍

为了评价说话人日志系统的性能，我们提出了conversational-der (cder) 的指标。传统的der 可以在时间尺度上评估说话人分类系统的整体性能。但是，在实际对话中，有时较短的持续时间包含重要信息，基于时间尺度的系统评价标准难以反映短时片段的识别性能。因此我们提出了cder ，在句子级别评估说话人日志系统。

详细信息请见：

奖项设置

比赛分别设置一等奖、二等奖和三等奖，将评选出三组获奖团队/个人。一等奖团队/个人将获得oppo find系列手机一部（价值约5000元），同时，获奖者将有机会参加 iscslp 2022 会议进行报告分享。

基线系统答疑指导

对基线系统有任何疑问，请访问以下链接获取帮助，将有专家团队给予解答。

竞赛主委会支持团队

挑战赛相关问题，请发送邮件至 open@magicdatatech.com，邮件标题为“iscslp cssd挑战赛疑问”。

疑问将由以下组委会资深技术专家提供专业技术问答和指导。指导专家均在语音领域深耕多年，有着丰富研究和实战经验，相信参赛者们在他们的指导下能够得到启发与收获。

赛程设置

9月8日将发布评估集，请参赛者谨记比赛关键时间点，详情如下：

访问magichub开源社区，获取更多数据集

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？