发布时间 : 2022-06-20 阅读量 : 331
对话式交流是人与人之间相互理解、彼此传递信息最方便、最重要的媒介。如今,是人工智能的时代,也是每个人都能够拥有语音助手的时代。几乎每个人手机上都有个 “小爱同学”,“hi siri” 或者 “叮咚叮咚”... 这些语音助手。
但是,目前我们与这些语音助手的交互还不能如同人类交流一般顺畅自如。语音助手在与人的交流中,很容易陷入 “傻瓜模式” 或者 “固定套路回答模式”,经常答非所问,更不用说和人们智能、个性化交互。这主要是由于这些语音助手背后缺乏对语音语义的准确理解、对话逻辑的构建以及正确的反馈。
语音助手的看似仅仅是个手机app,但其内部算法原理却异常复杂。其普遍结构通常需要四组输入和输出,管道的每一层都分别需一组自然语言理解(nlu)、对话状态跟踪(dst)、对话策略管理(dp)和自然语言生成(nlg)。复杂的结构使得语音助手的智能化变得充满挑战。
多个功能模块的联合优化
对话式ai语音助手使用语音进行交互,底层算法涉及语音识别、自然语言理解、对话跟踪、决策管理和语音合成等个模块。每个模块使用不同的深度神经网络模型和算法来构建,彼此之间相互协作才能完成语音助手与人类之间的交流。每个模块单独优化会往往会陷入局部最优。如何保证多个功能模块之间相互促进、共同优化是这一问题的难点。
真实场景下对话数据紧缺
ai语音助手算法模型的训练依赖大量对话标注数据。由于对话式语音交互数据采集场景复杂、采集过程需要多人配合、且采集周期较长,导致这些数据稀缺。任何深度学习工作研究的前提都是数据,这些数据采集、清洗、标注、发布工作的耗时、耗力、人工成本高都阻碍对话式ai助理发展的绊脚石。
端到端神经网络联合优化
为改变人工智能助手目前的困境,meta ai 宣布了 “cairaoke计划”。他们开发了一种端到端神经模型,该模型比人们现在所熟悉的系统更支持个性化的情境对话。与传统人工智能助手不同,在 meta ai 的神经网络模型中几乎不存在事先设定好的会话流,使用这个模型,只需要一组真实场景录制的训练数据即可。同时,端到端联合优化可以消除对上游模块的依赖,进而提高开发和训练速度,使人们以更少的功耗和数据对其他模型进行微调。由 “cairaok 计划” 所开发的模型,用户可以随意地与他们购买的人工智能会话助手沟通,这样他们就可以在对话中引用早些时候的内容,如果全部改变话题,或者提到依赖于理解复杂、微妙的上下文的情景,他们还能够以新的方式与机器人互动,比如使用手势。
采用大量对话式标注数据
对话式 ai 交互数据的缺乏导致智能语音助手没有足够的学习样本变得更 “聪明”。由于对话式 ai 语音助手产品往往面向的是全球消费者,因此采集多语种、多场景、多种说话风格的对话式语音数据,赋能语音助手更全面的学习样本,是促进ai语音助手与人畅所欲言,对答如流的关键。目前,magic data 作为全球领先的ai数据凯发体育网的解决方案提供商为算法工程师提供大量对话式交互数据。其中包括不同语种、不同风格、覆盖不同场景的对话式数据,样例如下:
法语对话音频数据集:点击了解更多
郑州话对话音频数据集:
数据是一切深度学习算法研究和落地的基石。人工智能语音助手的成长离不开数据和算法的双向加持。