最新发布!查看 magicdata 成品数据集

magic data-凯发体育网

press images

发布时间 : 2022-08-24     阅读量 : 203

2013年至今,随着深度神经网络的发展,机器翻译的效果显著进步,但是尚未达到能够对需要翻译的语言“心领神会”的地步。目前世界上查明的语言有7000多种。其中汉语、英语、西班牙语、俄语、阿拉伯语、法语是世界上的主要语言,也是联合国主要的工作语言。世界上使用人口最多的语言前十位按顺序分别是:汉语、英语、俄语、西班牙语、北印度语、阿拉伯语、葡萄牙语、孟加拉语、德语和日语。语种之多难以想象。

「机器翻译的壁垒」

目前最著名的谷歌翻译也不过只能翻译一百多种语言。但是对于一些小语种的识别准确率也不过60%左右。下面是两个常见的识别错误的例子:

通过上面两个例子可以看出,错误的主要原因在于,机器很难意译,只能照葫芦画瓢,翻译之后意思无法完全正确。连谷歌翻译都尚且如此,对于其他翻译软件更是弊病重出。

机器翻译的其中一个壁垒是小语种的语料库稀缺。且不说覆盖全球所有语种,就是目前国家开展的“一带一路”,其合作文件已涉及110多种语言。“一带一路”沿线国家有65个,除了中国之外的64个国家,所使用的语言大约有80种。除去多个国家采用同一种语言作为官方语言的情况外,实际使用了56种官方语言和通用语言,涉及汉藏、印欧、乌拉尔、阿尔泰、闪-含、高加索及达罗毗荼等多个语系 。此外还有不计其数的民族语言,以及各种方言等。其中部分国家由于诸多因素,没有正规的整理过本国语言,要想获得相应语言的平行语料库非常困难。

「机器翻译的未来路」

面对意译无法准确传达这一挑战,一方面,研究者们已经开始将多任务学习联合辅助机器翻译,通过知识图谱推理出上下文的语境,然后对当前的语句进行预测纠正。另一方面,扩大语言训练语料库的民俗用语和习惯用语的预料规模,让深度模型学习相对应的语料场景和使用方式,也就是为机器引入“知识”。比如『中巴』这个例子就存在歧义,如果没有给上下文参考,机器无法判断『巴』是哪个国家的简称。

针对小语种语料库稀缺的问题,通过专业的数据提供商可以更快的帮助研究者采集更多的小语种的语料库。此外,由于语料库的采集需要专业的数据收录、标注、清洗,同时也需要经过语言学专家的指导。

中英印地三语平行语料库

中葡双语平行语料库点击查看详情

中泰双语平行语料库点击查看详

但即便采集到了小语种的语料库,也无法与世界使用人数排名前十的语种相匹敌。因此还需要利用低资源的迁移学习、模型自适应等深度学习方法,将在英语或者汉语使用情况良好的翻译模型迁移到小语种上,实现小语种识别的意会神传。

即刻与 magic data 建立联系?

联系凯发体育网

top
联系凯发体育网
网站地图