国产AI震撼逆袭：Vidu如何挑战Sora霸主地位？

更新时间：2024-04-29 19:58:30作者：无忧百科

自Sora问世后，无数人都为其神奇的视频生成能力惊叹。

如今，国产版的“Sora”也终于要来了！

这就是生数科技联合清华大学最新发布的视频大模型「Vidu」。

虽然自从Sora问世后至今，各种号称比肩Sora的国产大模型也不少了，但这次的Vidu，却是国内第一个长时长、高一致性、高动态性的视频大模型，支持一键生成长达16秒、分辨率达1080p的高清视频内容（Sora也才720P）。

也正因如此，Vidu才成为了国内与Sora最接近的视频大模型。

这种对镜头语言的精准理解，以及高度一致的画面效果，在一众国产视频大模型里，不能说极其罕见，只能说独一无二。

在保持大幅度动态的同时，整个视频全程都未出现画面突变、激烈抖动，或鬼影一类的现象，让人看着十分流畅、舒坦。

而Vidu之所以能做到这点，是因为它与Sora一样，都抓住了视频生成的精髓——对现实世界物理规律的模拟。

在那个著名的Sora视频“一辆老式SUV行驶在山坡上”中，视频中的SUV，几乎完美地再现了车辆在道路上行驶时该有的变化，例如扬起的尘土，阴影的位置等等，这体现的就是对物体位移的一种物理模拟。

而同样的提示词，用Vidu来生成，效果也毫不逊色，几乎就像在看一段真实世界的开车视频。

掌握了物理规律的精髓后，各种脑洞大开、天马行空的画面，也能被轻易地组合并生成，并且还能让人觉得有一定“真实感”。

例如下面这个在画室里航行的船的片段。

在其中一个片段中，一位宇航员在图书馆中漂浮着，试图抓住纷飞的书籍，这模拟的似乎是一种太空中失重的感觉。

尽管画面看似离奇，但这种对“失重感”的模拟，却十分自然、真实。

实现以上这些效果，生数科技和清华大学用了多久？

答案是两个月！

问题来了，这么短的时间，这么牛逼的效果，生数科技和清华究竟是咋做到的？

一、各路挑战者

讲真，在Vidu出现之前，各路试图挑战Sora的国产大模型也不少了。

但它们生成的视频，大都往往只有几秒，而且其画面一致性，动态性方面的表现，实在不尽人意。

很多时候，为了弥补画面动态性和一致性之间的缺陷，某些视频AI，往往会采取“顾此失彼”的策略，即如果要保持画面的高一致性，那画面的动态就要小一些，甚至趋近于静止。

这样做出来的“视频”，其实给人感觉更像是一种简易的GIF，难以表现出复杂的、高动态的场景和画面。

而相应地，如果将画面动态性放在首位，那么稳定性和一致性就又难以保证，各种画面突变、撕裂，抖动的情况就会接踵而至。

很多视频AI，就在这种一致性与动态性的取舍之间反复拉扯，始终都没能做出个像样的视频。

而造成这一“两难现象”的重要原因，是因为视频本质上是时间序列数据，每一帧不仅需要独立地看起来真实，还要与前后的帧形成连续的故事线。

但现有的许多模型，尤其是基于递归神经网络(RNN)或卷积神经网络(CNN)的模型，在处理长序列数据时，容易出现梯度消失或梯度爆炸问题。

这就像一个超长的传话游戏，一队人站成一列，依次往下传话，然而到了队伍尽头，最后听到的信息很可能和最初说得完全不同，甚至完全扭曲了。

这里的关键就在于，由于反向传播机制的存在，梯度是一点点、一层层传递回去的，中间任何一步的小偏差，都会在后面被放大或缩小，从而导致最终的梯度值曲离了真实的方向。

有些做视频AI的团队，为了应付生成的视频太短、画面太不连贯的尴尬困境，想出了一个很粗暴的“土办法”——插帧。

说白了，就是先生成一堆静止的画片，然后再把这些图片中间硬生生塞进一些“过渡帧”，用这种拼凑的方式装作视频是“流畅”的。

但是呢，因为插帧生成的帧，往往是基于前后帧的估计，缺乏细微变化和自然过渡，于是这些所谓的“视频”看上去就会显得十分僵硬、缓慢，一点也不自然流畅。

从总体上来说，这些急于求成的模型，都只是在生成过程上做了些调整，而尚未触及最底层，最根本的模型架构。这也是这一众挑战者和Sora最本质的差距。

二、Vidu的逆袭

可以说，Sora目前与其他视频模型的差距，是一系列基于模型架构的底层创新造就的。

总的来说，Sora通过在模型的各个部分(生成器、判别器)引入时空建模，以及采用先进的时空注意力机制，在架构层面就为生成高度动态且一致的视频打下了坚实基础。

在这样的架构层创新面前，插帧一类的小伎俩，就相当于想用简陋的燧发枪去对抗现代化的装甲车。

那么，面对这样一个武装到牙齿的对手，Vidu是怎样在短短两个月内追平的？

关键就藏在团队自研的U-ViT架构中。

我最近发现有些朋友一听到“中国团队+自研”这个组合，便会条件反射地想到“开源”。

但实际上，这个架构早在2022年9月，就被Vidu团队提出了，时间上要早于Sora采用的DiT架构，是全球首个Diffusion和Transformer融合的架构。

那这个U-ViT架构，究竟有何过人之处？

具体来说，在视频生成过程中，每一帧画面都是个精细活儿，以前的视频生成方法，就像是老式的工匠雕刻，依赖于卷积神经网络（CNN）这类工具一帧帧地精雕细琢。

U-ViT这个新模型呢，聪明的地方就在于不去一个个抠那些细节，而是把时间啊、特定要求啊，还有那些组成画面的小片段，都看成是一个个抽象的，可以自由组合的“拼图”，而这个拼图就是我们常说的“Token”。——即模型处理数据时的最小单元。

这些Token就像是视频或图像的“基因片段”，能够被模型轻易地理解和重组。这样一来，想要做出一连串流畅的视频画面，就变得既快又讲究了。

另一个关键是，U-ViT里头有个绝招，叫做“长跳连接”。你可以想象成是在盖高楼时，直接从顶层拉了根绳子到地基，需要啥材料，嗖的一下就能递上去。

还记得前面提到的那个“传话游戏”的比喻吗？在传统的卷积神经网络(CNN)中，由于反向传播机制是一层层将信息传递回去的，因此就不可避免地造成了信息的损失。

而长跳跃连接呢，它直接在梯子的两端架起了一座桥，让信息可以直接从梯子的某一层跳到另一层，不需要一层层地爬。这样，无论信息要走多远，都像是走直线一样，直接而且快速，减少了信息在传递过程中的损失和变形。

总的来说，尽管U-ViT主攻图像生成，但它在处理时序信息、以及生成式建模等方面的经验和技术，完全可以迁移和复用到视频生成任务中。

这也是为什么，在Sora问世仅两个月后，Vidu很快就能凭借其之前积累的“功力”与之一较高下的原因。

三、One More Thing

直到今天，说到这视频生成技术，部分人仍将其视为“玩具”，视为没有实际生产力，没有产能的“花架子”。

但实事求是地说，在可以预见的未来，Sora和Vidu这类视频AI，至少会带来两个显而易见的经济增量。

首先，说到短期影响，以后影视娱乐行业可就方便多了。导演、编剧们直接用AI生成个虚拟人物，虚拟场景，想怎么编排就怎么编排，而即使是最普通的个人创作者，也能轻松拥有好莱坞级别的特效制作台。

科幻大片？古装穿越？小意思！创意的门槛一下子被拉低。

稍微看远一点，这些视频AI生成的片段和场景，还可以直接拿来当成训练机器人或者无人驾驶汽车的学习数据。

在大模型训练什么最难？是模型算法吗？是芯片算力吗？其实都不是。真正困难的地方是如何搞到足够多的高质量数据。现在全球各大AI厂商对于数据的抢夺已经进入了白热化阶段，OpenAI给到各大网络论坛、各大媒体的数据采购费用都是8位数起步的。

而就在去年，人形机器人Figure01，就通过端到端神经网络，在观看了10小时人类煮咖啡的视频后，学会了自主打开咖啡机盖，放入咖啡包，一气呵成地完成整个煮咖啡的操作。

同样地，特斯拉也早在Sora问世前，就采用视频合成技术，在各种虚拟场景中进行路况模拟，实现了对自动驾驶车辆的训练。

试想一下，倘若人们用Sora和Vidu这类视频AI，批量地生成一些特定的工作场景视频，并将其用于机器人的训练中，那么一批熟练的，速成的机器人大军，就能快速进入各类生产线中，实现生产效率的大幅提升。

而如果再看得更远一些，从更终极，更宏观的视角来看，一个能够准确模拟现实世界规律，并再现各种真实场景的视频AI，也将有可能成为具有预知未来能力的“世界模型”。

正如图灵奖得主，AI三巨头之一的Yann LeCun所言：世界模型可以预测世界的自然进化。

只要有充足的数据，Sora、Vidu这类模型，就能通过学习并模拟现实世界中复杂的环境和交互，逐渐理解人类、动物的行为模式，而在参透了这些模式之后，模型就能基于对事物发展规律的把握，对各种情况进行推演与预测。

到了那时，小到一条马路的堵车时间，大到一个国家的兴衰成败，或许都能通过虚拟的视频片段进行模拟，以此瞥见端倪。

所以，如果总是觉得视频AI只能用来拍短视频，那就像是开着法拉利去超市买菜——这格局确实小了点儿。

本文标签：挑战地位震撼国产

上一篇：国产AI震撼逆袭：Vidu如何挑战Sora霸主地位？

下一篇：很急！AI能不能让救命药来得更快一点？

国产AI震撼逆袭：Vidu如何挑战Sora霸主地位？

相关文章

为您推荐

国产AI震撼逆袭：Vidu如何挑战Sora霸主地位？

很急！AI能不能让救命药来得更快一点？

已有人损失近万元！买家、卖家都是受害者…那钱去哪儿了？

苹果首款AI平板曝光：或首发M4芯片

AI电商，请不要成为“卖家秀”的帮凶

锂电相关产业“卷技术” 锂电隔膜技术提高性能成本更低

热门文章

热门推荐

最新文章