发布时间 : 2021-07-01 阅读量 : 475
6月下旬,由中国汽车工业协会(caam)主办、世界汽车组织(oica)支持的“2021中国汽车论坛”在上海嘉定圆满召开,论坛现场汇聚了政府部门主管领导、全球汽车企业领袖、领先科技公司代表、汽车行业精英和权威专家等,共谋汽车产业发展新格局。
论坛围绕“新起点、新战略、新格局——推动汽车产业高质量发展”主题,涉及车市转型、新能源、智能化、技术创新、品牌化等议题。在智能化方面,智能网联汽车发展及数据安全、智能座舱创新技术等话题成为业内外关注的焦点。magic data作为全球领先多模态数据服务提供商亮相此次大会,普及对话式ai数据对推动智能座舱发展的重要作用。在智能座舱创新技术论坛上,magic data创始人兼ceo张晴晴发表题为“数据推动智能座舱发展”的主题报告。
智能座舱成车企发力重点
随着人工智能技术的发展以及汽车市场的转型加快,座舱数字化成为汽车智能化的重点,各大车企通过发力智能座舱提升消费者体验。据数据显示,国内智能座舱系统主要部件市场空间在2020年达到480亿元左右,2025年有望达到982亿元左右,2019年至2025年年均增长14%左右。
汽车座舱实现智能化需要云计算、ai、芯片、操作系统、数据等技术合力,其中通过语音方式的人机交互是解放消费者双手的核心技术之一,而让人机交互更自然,体验更好,离不开大量对话式ai语音训练数据的支撑。
用数据解决智能座舱痛点
在车载信息空间内,语音是传递信息的主要载体,也是智能座舱落地的重要方面。智能座舱诸多功能中,涉及到语音的地方较多,比如智能导航、智能音乐搜索、命令控制等都可以通过语音进行操控。
与家居等环境不同的是,车载环境复杂,特别行车过程中伴随着噪音、开关车窗、多人说话等复杂环境,模型在复杂的车内环境听懂人说话还要解决说话人的方言、重口音、吞音等问题。以至于模型对人声反应较为机械,代入感较差,和消费者要求的自然流畅对话体验存在一定差距。
在解决这些痛点时,开发者可能认为算法不好,重点要进行算法优化。事实上,相对于算法,数据对模型的影响才是根本的。通过对比显示,不同算法的模型使用同一组数据训练,结果没有太大差异;如果用同一个算法的两个模型,分别选择不同的数据,得出的结果有很大不同。所以,ai系统的增益主要来自数据。
数据配比2-8原则帮助车企降本增效
对于模型来说,提升识别率需要高质量的结构化数据进行训练。数据是人工智能的燃料,未被结构化的原始数据好比原油,需要经过清洗、分类、标注、质检和筛选等专业步骤,形成结构化数据,才能有用于模型训练。数据结构化每一个步骤都会影响到模型性能,也就是说,结构化质量决定了智能系统的性能。
结构化的数据用的越多,模型性能就越好,但对于车企来说,提高汽车智能座舱的人机交互体验同时,还需考虑到投入产出比,尽量以适当的投入有较好的产出。因此,magic data提出数据配比2-8原则,先保证通用性能,再进行个性化定制。对于车企来说,用于提升模型性能的80%数据都属于共性数据,现有的结构化数据即可满足要求,可一次性投入;剩余20%数据根据需求进行精准定制化服务,进一步提升模型性能。
magic data目前拥有超过150000小时结构化的ai训练数据集,其中超过90000小时对话式ai训练数据集,超过50000小时朗读数据集,超过10000小时自发式数据集。结构化ai训练数据集在数据安全上达到国际标准,有利于车企更快地迭代模型。
magic data拥有超过60种语言的数据服务能力,包括中文、英语、德语、日语等大语种,同时覆盖上海话、四川话、粤语等八大方言区方言。针对车企需求,magic data开发中英文混合对话数据集、车载噪音等数据集,满足车载场景下的ai模型训练需求。
智能座舱是车企提升消费者体验的重要发力点,智能座舱实现更自然更智能的人机交互体验,离不开对话式ai数据,magic data为智能座舱提供专业的数据服务,用数据推动汽车行业高质量发展。