发布时间 : 2021-05-17 阅读量 : 1975
当前,新一轮技术革命和产业变革正在孕育兴起,推动人工智能为代表的数字技术加速演进,人类快速向智能化社会迈进。
中国信息通信研究院今年4月发布的《人工智能核心技术产业白皮书》认为,人工智能已全面覆盖社会运行的基本要素,提升全局运转效率。未来,人工智能将像水、电一样无处不在,颠覆和变革每一个行业。
数据对人工智能发展起到重要支撑作用,人工智能模型需要海量数据进行训练和优化。在数据、算法和算力三大核心要素中,算法为中心逐渐向数据为中心转变。数据决定机器学习上限,只有研发人员重视数据,才能训练出更精准的模型。著名机器学习专家吴恩达认为,如果更多地强调以数据为中心而不是以模型为中心,那么机器学习将快速发展。
755小时普通话音频数据集
为推动人工智能技术发展,magic data推出,向全球开发者们陆续开源大量数据。近期,magic data在社区继续开源数据集,开源了一批755小时的普通话音频数据集。该数据集曾在openslr开源,此开源数据集也将链接到该社区,供开发者们。
社区开源的755小时、近60gb的普通话音频数据集,采自magic data中文全领域手机朗读语料库数据产品,该产品总时长为10566.9小时。此数据曾为约翰·霍普金斯大学语言和言语处理中心的科研成果"exploring methods for the automatic detection of errors in manual transcription "提供了重要理论依据与数据支撑。
印尼语和马来语对话数据集
magic data本周在开源社区上传了印尼语和马来语对话音频数据集,为开发者提供高质量的对话式ai训练数据。
印尼语对话音频数据集采集超过800多人的自由对话,通过室内环境采集,采集人为印尼人本地人。magic data在社区开源5个小时印尼语对话音频数据集。。
马来语对话音频数据集采集近700位马来西亚人自由对话,通过室内环境采集。magic data开源5个小时马来语对话音频数据集。。
magichub.io数据开源社区目前上传了英语、西班牙语、意大利语、韩语、日语等外语数据集;中文普通话、粤语、四川话、上海话等方言数据集;车载噪音数据集;发音词典等。
国家十四五规划和2035年远景目标首次明确推动开源社区发展,目前中国开源项目正处在高速发展阶段,各大企业纷纷拥抱开源,加大开源项目建设,加快形成社区开源生态。
magichub.io数据开源社区秉持“共享共建,奉献创新、共同发展”精神,为行业提供开源的对话式ai训练数据。magic data目前已在社区开源30多组近1000小时数据集。同时鼓励数据所有者在社区开源数据集,让更多数据开源出来,与开发者共建共享。