发布时间 : 2022-07-04 阅读量 : 337
语言是信息沟通的基础,无障碍交流是人类一直以来的梦想。但是由于方言、语种、说话风格等不同导致人与人之间存在很大的交流障碍。目前,人工智能的发展正在打破语言沟通的壁垒。市面上已经出现了大量多语种语音识别的产品,这些产品除了中文普通话和英文外,还支持多国语言,多种方言,为人与人之间交流打破国界、地域的阻碍。多语种语音识别因为其对多种语言的理解,实现高准确率的识别效果充满了挑战。
每个语种体系先验知识的缺乏
世界上有超过6,000种不同的语言,方言更是数不胜数。众多语言的发音体系、发音技巧等不同语言之间差异很大。这些都需要专门的语言分析学家研究作为构建不同语种体系的先验知识。但是由于语种、方言种类众多,这些放音、标注的专业人才太少,导致不同语言特性单独建模的设想仍然没有完成。6,000种语言中,有三分之一的语言各自只有不到1,000人会说。
众多语种采集困难
众多语言中,有些语言说的人偏少,导致语言采集困难。目前,工业级的语音识别系统都采用千万小时的数据训练得到,通用的语音识别准确率大概98%左右。但是由于小语种采集困难,由大众语种迁移到小语种,也需要一些小语种的数据,因此众多小语种语言的采集是提升小语种语音识别准确的关键。
语音识别和语言学交叉研究
语音识别涉及语音研究和语言研究。但是国内院校设立了语音学研究,却缺乏语言学的研究。语言学一般隶属于文学学科,但是多语种的语音识别离不开语种体系的构建和语言先验知识分析,因此将语音研究和语言研究相结合,是解决语种体系先验知识匮乏的关键。
多语种数据采集
由于讲很多小语种的人较少,因此采集非常困难。搜集覆盖领域广、覆盖说话人多、量大的多语种语音变得弥足珍贵。如果算法研究者去搜集数据,会占用大量的研究时间和精力,成本较高。因此需要专业的数据公司团队帮助算法工程师打破多语言种语音识别的壁垒—多语种数据的匮乏。
magic data 作为全球领先ai数据凯发体育网的解决方案提供商,采集了众多语种的语音语料库,其中包括:英语、中国方言、法语、意大利语、日语、韩语、泰语、西班牙语、阿拉伯语、乌尔都语、他加禄语等多种语料。这些语料库覆盖车载语音数据、对话式语音、录音棚数据等多种场景。其中样例如下:
意大利语朗读音频数据集:点击查看详情
德语对话音频数据集:点击查看详情
日语对话音频数据集:点击查看详情
除了提供了多语种语音数据,magic data还提供数据采集、数据标注、私有化部署等服务。可以专门为您的研究或者工业级部署提供私人化数据提供服务。