magic data-凯发体育网

发布时间 : 2022-10-13 阅读量 : 480

图片来源

当我们沉浸于抖音、快手，吃着零食葛优躺，这个世界正在悄然刷新着我们的认知。此前，通过 dall-e、midjourney 和 craiyon 等 ai 工具，普通用户可以输入简单的文本内容，经过人工智能创作出艺术插画。近期，meta和google在此基础上更进一步，相继推出文本、语音生成视频的黑科技。

meta的make-a-video不仅能够生成图片，还可以生成声情并茂的视频内容。根据用户输入的描绘某个场景的文本信息，生成一个相匹配的短视频。样例网站：

除了meta，google也在假期之末献上两名视频生成竞争选——imagen video和phenaki。根据google ceo sundar pichai介绍，imagen video比meta的make-a-video拥有更高的分辨率，能生成1280*768，每秒24帧的视频分段。样例网站：

而phenaki则可以根据200个单词左右的文字描述，生成2分钟以上的视频，讲述一个完整的小故事，堪比一个小小的导演。样例网站：

make-a-video的模型架构如下所示，该技术是在原来text-to-image的基础上改进而来，主要动机是了解世界的样子，以及描述与其配对的文本图像数据，并从无监督视频中学习现实世界录制视频时的镜头移动。
首先，作者解耦了完整的时间 u-net 和注意力张量，并在空间和时间上对它们进行近似逼近。其次，作者设计了一个时空流水线来生成高分辨率和帧率视频，其中包含一个视频解码器、插值模型和两个超分辨率模型，可以实现包括 text-to-video的各种文本生成应用。

来自源论文：

make-a-video 的高级架构图中显示，给定由先验 p 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ，解码器 dt 生成 16 个 64 × 64 分辨率的帧，然后通过 ↑f 将其插值到更高的帧速率，并提高分辨率到 srt l 为 256 × 256，srh 为 768 × 768，最后生成高时空分辨率的视频 y^。

imagen video是基于最近大火的扩散模型，直接继承图像生成sota模型imagen。除了分辨率高以外，还展示出三种特别能力。
首先它能理解并生成不同艺术风格的作品，物体的3d结构在旋转展示中不会变形。imagen video是一系列模型的集合。语言模型部分是google自家的t5-xxl，训练好后冻结文本编码器部分。其中，语言模型只负责编码文本特征，把文本到图像转换的工作交给了后面的视频扩散模型。基础模型在生成图像的基础上，以自回归方式不断预测下一帧，首先生成一个48*24每秒3帧的视频。其从文本提示输入开始到生成视频的流程图如下图所示：

来自源论文：

在phenaki之前，ai模型可以一个具体提示生成一个超短视频，但是无法生成2分钟连贯的视频。phenaki实现了脑部故事情节，生成2分钟以上视频。
研究人员引入了一个新的因果模型来学习表示视频：将视频视作图像的一个时间序列。该模型基于transformer，可以将视频分解成离散的小表示，而分解视频则是按照时间的因果顺序来进行的。也就是通过空间transformer将单个提示进行编码，随后再用因果transformer将多个编码好的提示串联起来。其流程图如下所示：

来自源论文：

随着文本生成视频技术的快速发展，未来，各大短视频平台的视频或许不再是真人表演秀，而是合成视频的秀场，这将给依靠短视频平台的视频剪辑和录制的人员带来经济冲击。

ai正在革新着各行业，在带来挑战的同时，也带来了更多进步。stability ai新任首席信息官daniel jeffries表示，ai最终会带来更多的工作岗位。任何时候都是挑战与机遇并存，把握时代脉搏就能创造更好的未来。

荣誉｜magic data获评中国电子联合会「2022智慧赋能名牌企业」

2023年4月15日，中国电子信息行业联合会在武汉首届中国软件创新发展大会上，发布了“2022年智慧赋能名牌企业”。北京爱数智慧科技有限公司（magic data）荣获“创新成长型”智慧赋能名牌企业。获奖企业是围绕智慧赋能基础关键技术、智慧赋能应用关键技术、智慧赋能凯发体育网的解决方案三个方向，重点突出企业研发投入和创新成果、市场占有率和品牌持续性、企业规模和成长性、服务质量保障及企业特色性，遴选的典型及成长新锐企业。

案例｜智慧教育：用ai训练数据打造领先教育科技产品

用科技赋能教育是近年来教育领域中备受关注的话题。科技在教育领域中的应用，可以帮助教育者更加高效、个性化地实现教学目标，同时提高学习者的学习效果和体验。智慧教育项目集成各种先进的ai技术，例如语音识别和自然语言处理等，来实现个性化推荐、智能评估和自适应学习等功能。本文将介绍我们的客户如何通过打造英语口语智能评分系统为智慧校园注入活力。

案例｜智慧金融：借助ai训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型：bloomberggpt，500 亿参数语言模型（*）。数字化、智能化转型正在各行各业全面铺开，人工智能等技术加速向金融业渗透，保险从业机构保持技术的敏感度，持续提升创新能力，不断挖掘增量市场，以应对科技发展带来的挑战和机遇。magic data作为领先的ai数据凯发体育网的解决方案提供商，深耕对话式人工智能领域，期待能在未来持续为行业客户提供数据侧支持，从数据科学的专业视角赋能客户的数智化转型。

张晴晴：对话数据推动aigc——大模型底层数据探索

“training data is technology” .数据即科技，openai的联合创始人ilya sutskever在与知名科技媒体the verge访谈中提到。chatgpt自发布以来热度席卷全球，一周前惊艳亮相的gpt-4更是让人感叹我们迎来了ai发展的历史性时刻。然而我们也困惑，openai为何不开源gpt-4？在我们看来，更多的奥秘或许存在于数据之中......本文是magic data创始人兼ceo张晴晴博士关于数据、大模型与生成式ai的观点分享。

客户案例｜多人会议对话数据集助力高效迭代智能在线会议功能

数字化时代，传统的会议凯发体育网的解决方案已经无法满足高效协同需求，企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作凯发体育网的解决方案企业，其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。

magic data-凯发体育网

即刻与 magic data 建立联系？