magic data-凯发体育网

发布时间 : 2022-08-19 阅读量 : 234

近期，小米展示了全尺寸人形仿生机器人cyberone。据悉，cyberone身高177cm、体重52kg，艺名“铁大”，能够感知人类情绪、视觉敏锐、可实现双足运动姿态平衡。同时，这款全尺寸人形仿生机器人能够感知45种人类语意情绪，拥有8米内深度信息精度可达1％。小米集团创始人、董事长兼ceo雷军表示，cyberone以人工智能为内核，以标准人形为载体，是小米对未来科技生态的一次探索，也是小米多元融合技术体系的新成果。该机器人最让人惊艳的是其45种人类语义情绪感知能力，让机器人不再是冰冷的金属材料拼接，变得心灵有“温度”可感知。

「语义情感分析」

语义情感分析属于知识挖掘的范畴，包含信息抽取、观点挖掘、标签建设、图谱建设等任务。情感分析又称倾向性分析，或意见挖掘，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。利用情感分析能力，可以针对带有主观描述的自然语言文本，自动判断该文本的情感正负倾向，并给出相应的结果。

「主流技术」

目前主流技术主要分为两种。一种是基于情感词典的情感分析。是指根据已构建的情感词典，对待分析文本进行文本处理，抽取情感词、计算该文本的情感倾向。最终分类效果，取决于情感词典的完善性。

另外一种是基于机器学习的情感分析。是指选取情感词作为特征词，将文本矩阵化，利用逻辑回归（logistic regression），朴素贝叶斯（naive bayes），支持向量机（svm）以及神经网络（neural networks）等方法进行分类。最终分类效果，取决于训练文本的选择以及正确的情感标注。

目前有些研究者将二者结合，例如某些领域的文本没有标注，该领域的情感词典也不够完善，而人工标注需要耗费大量成本，数据的采集相对于人工成本小很多时；可以选取部分文本，利用基本情感词典的方法粗略地计算这些文本的情感得分值，选取分值偏高或偏低的文本作为已标注的训练文本，再结合机器学习的方法进行分析。根据语义分析的粒度不同，又分为文档级别、句子级别、对象级别、词汇级别的情感分析。

中文人机交互对话语料库：

中文教育客服语料库：

英文医疗客服语料库：

「未来发展趋势」

近年来，nlp领域的sota模型基本都是基于预训练的，目前大多情感分析任务都是在预训练模型的基础上进行，综述文章《s. poria, d. hazarika, n. majumder, and r. mihalcea. beneath the tip of the iceberg: current challenges and》列举了imdb、sst-2/5、semeval 数据集在不同方法上的指标，sota情感分析模型的结果无一例外都是基于预训练模型。

虽然业界 sota 模型在一些粗粒度情感数据集上能达到超过 95% 的准确率，但在细粒度和复杂任务上，目前的效果还远不如人类水平。同时情感分析模型在多个场景的迁移能力较差，需要更多的学者研究多域自适应算法解决这一问题。

对于应用场景方面，随着电商、智能客服、舆论媒体、社交媒体、人形机器人等技术的发展，情感分析在这些方向都能落地。也许，未来有一天，你会发现，这个世界上最懂你的是人形机器人。

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？