国产AI震撼逆袭:Vidu如何挑战Sora霸主地位?

更新时间:2024-04-29 19:58:30作者:无忧百科

国产AI震撼逆袭:Vidu如何挑战Sora霸主地位?

自Sora问世后,无数人都为其神奇的视频生成能力惊叹。

如今,国产版的“Sora”也终于要来了!

这就是生数科技联合清华大学最新发布的视频大模型「Vidu」。



虽然自从Sora问世后至今,各种号称比肩Sora的国产大模型也不少了,但这次的Vidu,却是国内第一个长时长、高一致性、高动态性的视频大模型,支持一键生成长达16秒、分辨率达1080p的高清视频内容(Sora也才720P)。

也正因如此,Vidu才成为了国内与Sora最接近的视频大模型。



这种对镜头语言的精准理解,以及高度一致的画面效果,在一众国产视频大模型里,不能说极其罕见,只能说独一无二。

在保持大幅度动态的同时,整个视频全程都未出现画面突变、激烈抖动,或鬼影一类的现象,让人看着十分流畅、舒坦。



而Vidu之所以能做到这点,是因为它与Sora一样,都抓住了视频生成的精髓——对现实世界物理规律的模拟。

在那个著名的Sora视频“一辆老式SUV行驶在山坡上”中,视频中的SUV,几乎完美地再现了车辆在道路上行驶时该有的变化,例如扬起的尘土,阴影的位置等等,这体现的就是对物体位移的一种物理模拟。



而同样的提示词,用Vidu来生成,效果也毫不逊色,几乎就像在看一段真实世界的开车视频。



掌握了物理规律的精髓后,各种脑洞大开、天马行空的画面,也能被轻易地组合并生成,并且还能让人觉得有一定“真实感”。

例如下面这个在画室里航行的船的片段。



在其中一个片段中,一位宇航员在图书馆中漂浮着,试图抓住纷飞的书籍,这模拟的似乎是一种太空中失重的感觉。

尽管画面看似离奇,但这种对“失重感”的模拟,却十分自然、真实。



实现以上这些效果,生数科技和清华大学用了多久?

答案是两个月!

问题来了,这么短的时间,这么牛逼的效果,生数科技和清华究竟是咋做到的?

一、各路挑战者

讲真,在Vidu出现之前,各路试图挑战Sora的国产大模型也不少了。

但它们生成的视频,大都往往只有几秒,而且其画面一致性,动态性方面的表现,实在不尽人意。

很多时候,为了弥补画面动态性和一致性之间的缺陷,某些视频AI,往往会采取“顾此失彼”的策略,即如果要保持画面的高一致性,那画面的动态就要小一些,甚至趋近于静止。



这样做出来的“视频”,其实给人感觉更像是一种简易的GIF,难以表现出复杂的、高动态的场景和画面。

而相应地,如果将画面动态性放在首位,那么稳定性和一致性就又难以保证,各种画面突变、撕裂,抖动的情况就会接踵而至。



很多视频AI,就在这种一致性动态性的取舍之间反复拉扯,始终都没能做出个像样的视频。

而造成这一“两难现象”的重要原因,是因为视频本质上是时间序列数据,每一帧不仅需要独立地看起来真实,还要与前后的帧形成连续的故事线。

但现有的许多模型,尤其是基于递归神经网络(RNN)或卷积神经网络(CNN)的模型,在处理长序列数据时,容易出现梯度消失或梯度爆炸问题。

这就像一个超长的传话游戏,一队人站成一列,依次往下传话,然而到了队伍尽头,最后听到的信息很可能和最初说得完全不同,甚至完全扭曲了。

这里的关键就在于,由于反向传播机制的存在,梯度是一点点、一层层传递回去的,中间任何一步的小偏差,都会在后面被放大或缩小,从而导致最终的梯度值曲离了真实的方向。

有些做视频AI的团队,为了应付生成的视频太短、画面太不连贯的尴尬困境,想出了一个很粗暴的“土办法”——插帧。

说白了,就是先生成一堆静止的画片,然后再把这些图片中间硬生生塞进一些“过渡帧”,用这种拼凑的方式装作视频是“流畅”的。



但是呢,因为插帧生成的帧,往往是基于前后帧的估计,缺乏细微变化和自然过渡,于是这些所谓的“视频”看上去就会显得十分僵硬、缓慢,一点也不自然流畅。

从总体上来说,这些急于求成的模型,都只是在生成过程上做了些调整,而尚未触及最底层,最根本的模型架构。这也是这一众挑战者和Sora最本质的差距。

二、Vidu的逆袭

可以说,Sora目前与其他视频模型的差距,是一系列基于模型架构的底层创新造就的。

总的来说,Sora通过在模型的各个部分(生成器、判别器)引入时空建模,以及采用先进的时空注意力机制,在架构层面就为生成高度动态且一致的视频打下了坚实基础。



在这样的架构层创新面前,插帧一类的小伎俩,就相当于想用简陋的燧发枪去对抗现代化的装甲车。

那么,面对这样一个武装到牙齿的对手,Vidu是怎样在短短两个月内追平的?

关键就藏在团队自研的U-ViT架构中。

我最近发现有些朋友一听到“中国团队+自研”这个组合,便会条件反射地想到“开源”。


但实际上,这个架构早在2022年9月,就被Vidu团队提出了,时间上要早于Sora采用的DiT架构,是全球首个Diffusion和Transformer融合的架构。



那这个U-ViT架构,究竟有何过人之处?

具体来说,在视频生成过程中,每一帧画面都是个精细活儿,以前的视频生成方法,就像是老式的工匠雕刻,依赖于卷积神经网络(CNN)这类工具一帧帧地精雕细琢。

U-ViT这个新模型呢,聪明的地方就在于不去一个个抠那些细节,而是把时间啊、特定要求啊,还有那些组成画面的小片段,都看成是一个个抽象的,可以自由组合的“拼图”,而这个拼图就是我们常说的“Token”。——即模型处理数据时的最小单元。



这些Token就像是视频或图像的“基因片段”,能够被模型轻易地理解和重组。这样一来,想要做出一连串流畅的视频画面,就变得既快又讲究了。

另一个关键是,U-ViT里头有个绝招,叫做“长跳连接”。你可以想象成是在盖高楼时,直接从顶层拉了根绳子到地基,需要啥材料,嗖的一下就能递上去。

还记得前面提到的那个“传话游戏”的比喻吗?在传统的卷积神经网络(CNN)中,由于反向传播机制是一层层将信息传递回去的,因此就不可避免地造成了信息的损失。



而长跳跃连接呢,它直接在梯子的两端架起了一座桥,让信息可以直接从梯子的某一层跳到另一层,不需要一层层地爬。这样,无论信息要走多远,都像是走直线一样,直接而且快速,减少了信息在传递过程中的损失和变形。

总的来说,尽管U-ViT主攻图像生成,但它在处理时序信息、以及生成式建模等方面的经验和技术,完全可以迁移和复用到视频生成任务中。

这也是为什么,在Sora问世仅两个月后,Vidu很快就能凭借其之前积累的“功力”与之一较高下的原因。

三、One More Thing

直到今天,说到这视频生成技术,部分人仍将其视为“玩具”,视为没有实际生产力,没有产能的“花架子”。

但实事求是地说,在可以预见的未来,Sora和Vidu这类视频AI,至少会带来两个显而易见的经济增量。

首先,说到短期影响,以后影视娱乐行业可就方便多了。导演、编剧们直接用AI生成个虚拟人物,虚拟场景,想怎么编排就怎么编排,而即使是最普通的个人创作者,也能轻松拥有好莱坞级别的特效制作台。

科幻大片?古装穿越?小意思!创意的门槛一下子被拉低。



稍微看远一点,这些视频AI生成的片段和场景,还可以直接拿来当成训练机器人或者无人驾驶汽车的学习数据。

在大模型训练什么最难?是模型算法吗?是芯片算力吗?其实都不是。真正困难的地方是如何搞到足够多的高质量数据。现在全球各大AI厂商对于数据的抢夺已经进入了白热化阶段,OpenAI给到各大网络论坛、各大媒体的数据采购费用都是8位数起步的。

而就在去年,人形机器人Figure01,就通过端到端神经网络,在观看了10小时人类煮咖啡的视频后,学会了自主打开咖啡机盖,放入咖啡包,一气呵成地完成整个煮咖啡的操作。



同样地,特斯拉也早在Sora问世前,就采用视频合成技术,在各种虚拟场景中进行路况模拟,实现了对自动驾驶车辆的训练。

试想一下,倘若人们用Sora和Vidu这类视频AI,批量地生成一些特定的工作场景视频,并将其用于机器人的训练中,那么一批熟练的,速成的机器人大军,就能快速进入各类生产线中,实现生产效率的大幅提升。



而如果再看得更远一些,从更终极,更宏观的视角来看,一个能够准确模拟现实世界规律,并再现各种真实场景的视频AI,也将有可能成为具有预知未来能力的“世界模型”。

正如图灵奖得主,AI三巨头之一的Yann LeCun所言:世界模型可以预测世界的自然进化。



只要有充足的数据,Sora、Vidu这类模型,就能通过学习并模拟现实世界中复杂的环境和交互,逐渐理解人类、动物的行为模式,而在参透了这些模式之后,模型就能基于对事物发展规律的把握,对各种情况进行推演与预测。

到了那时,小到一条马路的堵车时间,大到一个国家的兴衰成败,或许都能通过虚拟的视频片段进行模拟,以此瞥见端倪。

所以,如果总是觉得视频AI只能用来拍短视频,那就像是开着法拉利去超市买菜——这格局确实小了点儿。

本文标签: 挑战  地位  震撼  国产