发布时间 : 2021-09-03 阅读量 : 1021
中文临床医学文本分词与命名实体挑战赛,是由北京magic data和香港中文大学(深圳)联合主办,并获得英特尔openvino团队的大力支持。挑战赛于9月2日正式开启注册报名,整个赛程持续到10月28日止,颁奖典礼将在由中国计算机学会(ccf)主办的2021中国计算机大会(cncc)技术论坛“多模态在人机交互场景下的思考与挑战”现场举行。 本次nlp竞赛围绕中文临床医学文本内容,对医疗文本的分词和命名实体进行自然语言处理任务,以医疗问答为切入点,推动nlp技术创新,努力扩展到更多应用场景。
本次竞赛奖金丰厚,面向社会各界开放,欢迎全国高校学生、ai科技型企业和自然语言处理爱好者报名参加!
赛题背景
和众多行业一样,医疗行业是人工智能重要落地行业,人工智能将转变传统医疗服务模式并走向智能化。现在新医改大背景下,智慧医疗水平不断提升,服务能力不断增强,患者与医务人员、医疗机构之间的沟通互动愈加频繁化和信息化。在实现智慧医疗过程中,人工智能对辅助治疗、医疗文本分类等领域发挥着重要作用。使得最终提升治疗效率、降低医疗成本、个性化医疗服务的目标成为可能。
人工智能对医学文本的识别离不开自然语言处理(nlp)技术,自然语言处理是人工智能领域的一个重要方向,科研领域一直没有停止在nlp技术上创新步伐。自然语言处理主要应用于机器翻译、舆情监测、观点提取、文本分类、语音识别等方面。其中命名实体识别是文本挖掘系统中的一个重要的基础步骤,命名实体识别的准确程度是其他文本挖掘技术如信息提取或文本分类等的先决条件。
赛题任务
本次大赛的任务是参赛者对主办方提供的中文临床医学病例样本,进行医学文本分词和命名实体的自然语言处理任务。数据类型均为中文临床医学病例文本数据,该文本数据是已被标注好的结构化文本。希望参赛者结合当下前沿自然语言处理和深度学习技术,有效推动人工智能在医学文本领域应用。
数据简介
本次比赛使用的原始医疗数据来源于chimed中文医疗问答语料库。该医疗问答语料库包含约20万组从互联网资讯平台获取的医患问答,涵盖内科、外科等共计15个科室,共计约4500万字。其中,每组问答包括标题、患者问题、所属科室、关键词、以及平台注册医生的回答等信息。该数据集可用于包括智能医疗问答、自动分诊、关键词抽取等多项中文自然语言处理任务。关于该语料库的使用和下载等更多信息,请参考
。
在本次比赛中,比赛项目组织方从最基础的自然语言处理任务出发,关注医疗分词和医疗术语标注这两个最基础的自然语言处理任务。比赛项目组织方采用人工方式标注了1000组医患问答中患者问题和医生回答部分的分词和医疗术语,共计约22万字,5500余句。其中,分词部分基本采用宾州中文树库(即chinese penn treebank,ctb5)的分词规范,并在其基础上针对中文医疗领域的语言特点对其稍加改进。医疗术语部分,比赛项目组织方在借鉴了现有主流的中文医疗命名实体识别的标注规范的基础上,结合实际医疗诊断中存在的需求,定义了近20个类别的医疗术语(例如疾病、症状、病情程度、身体部位、科室、治疗方案等),并以此为基础标注数据,成为现存公开中文医疗术语标注数据中包含医疗术语类别最多的数据集。 本次比赛使用的样本数据集和测试数据集将分批次发放,参赛选手需提交模型在最终的开放测试集上的预测结果,用于评测模型的性能。
组队规则
-
原则上,本次竞赛以团队形式参与,每个团队不超过4个人。
-
参赛团队在比赛过程中被要求提供个人身份信息,如邮箱、姓名、电话等,参赛者须保证提供信息真实性。
-
竞赛所使用的数据必须是主办方提供的数据集,不得使用外部数据。
竞赛议程
竞赛分前期报名准备,正式竞赛、公布结果和最后颁奖几个环节。前期报名完成后,参赛者会加入竞赛微信群,比赛中遇到任何问题都可通过微信群进行咨询。
*注:如因不可抗力或其他因素影响而变更时间,组委会将在第一时间通知获奖团队。若获奖团队来自于海外,建议进行远程分享对接。
赛道设置
本次竞赛分三个赛道:临床医学文本分词、临床医学文本ner和openvino 推理。
在“openvino推理”赛道中获奖的参赛团队,将被授予“英特尔 openvinoᵀᴹ 工具套件领航者联盟”认证。
英特尔 openvinoᵀᴹ 工具套件领航者联盟
奖项设置
参赛团队可同时选择多个赛道参赛,并有机会获得相应奖金。例如,参赛团队同时选择三个赛道并且都获得一等奖,将会获得总额11,000元奖金。 获奖团队将有机会参加ccf主办的2021中国计算机大会(cncc)技术论坛“多模态在人机交互场景下的思考与挑战”现场进行成果演示。 另外,本次竞赛还将设置:
杰出技术贡献奖
参赛团队获得第一赛道或第二赛道任一奖项并且发表论文,将额外获得2000元现金奖励。
参赛团队提交第三赛道“openvino推理”赛道成功案例文章,组委会将根据文章涉及的技术难度,投稿人可获得 1000-10000元不等的现金奖励。
参与奖
参赛团队若参与第三赛道“openvino推理”赛道,提交成功案例并符合要求,即可瓜分5000元的现金大奖。具体提交案例的要求将在后续比赛中宣布。
报名方式
欲参加该比赛的参赛者可发送邮件至cncc_2021@163.com报名邮箱进行报名。邮件标题注明:“中文临床医学文本分词与命名实体挑战赛”。邮件需提交团队名称、机构名称、参与者和队伍负责人姓名、手机号码和邮箱地址。
竞赛报名时间为9月2日~9月8日,欢迎参赛者积极报名参赛!
期待您的参与!