发布时间 : 2021-05-17 阅读量 : 1659
近期,近千家车企参加上海车展,电动化和智能化是各家车企“秀肌肉”的标配,特别汽车的智能化如智能座舱、自动驾驶、智能车云服务、智能电动等功能,描绘着智能车的未来图景。
据统计,预计2025年全球智能联网汽车数量将接近7400万台,其中中国的智能联网汽车数量将达到2800万辆,我国智能汽车行业迎来发展黄金期。
要想这些ai功能真正落地,在车内环境下实现人机智能交互,需要在语音识别、语音合成、自然语言理解等算法应用领域,提供底层的算法和算力支撑。而支撑这些算法的,是大量场景匹配度高,精准性好的智能车载对话式训练数据。如果说汽车电动化的燃料是电力,那么汽车智能化的燃料便是数据。
为了帮助智能车载系统的落地和优化,magic data近期在,更新开源了可用于车载系统的数据集:和。
车载噪音数据集
数据合规采集于行车过程中产生的各种噪音,例如轮胎摩擦噪声、发动机噪声、收音机噪声、人声等。
车载普通话朗读数据集
本次开源的车载普通话朗读数据集,内容主要是车内场景中的命令和查询,数据集包含在汽车场景下的10个说话人贡献的5948句话。值得一提的是,在采集该数据时,车内设置了两个麦克风,一个在汽车遮光板上,一个在座位前排乘客座椅上,靠近采集人的地方。所以,数据记录了同步的双重声音。
接下来,magichub.io数据开源社区将持续上传更多多维度、多场景的标准化数据集,供更ai多开发者下载和使用。