当前位置:首页 > 外汇资讯 > 正文内容

清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律

激石外汇2024-04-28 11:57:20外汇资讯167

激石Pepperstone(http://www.paraat.net/)报道:

Sora席卷世界,也掀起了全球竞逐AI视频生成的热潮。

就在今天,国内又有一支短片引发关注。

视频来自生数科技联合清华大学最新发布的视频大模型「Vidu」。

从官宣消息看,「Vidu」支持一键生成长达16秒、分辨率达1080p的高清视频内容。

更令人惊喜的是,「Vidu」画面效果非常接近Sora,在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都十分出色,而且还能虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。

并且实现这般效果,背后团队只用了两个月的时间。

全面对标Sora

3月中旬,生数科技联合创始人兼CEO唐家渝就曾公开表示:“今年内一定能达到Sora目前版本的效果。”

现在,在生成时长、时空一致性、镜头语言、物理模拟等方面,确实能看到「Vidu」在短时间内已经逼近Sora水平。

长度突破10秒大关

「Vidu」生成的视频不再是持续几秒的「GIF」,而是达到了16秒,并且做到了画面连续流畅,且有细节、逻辑连贯。

尽管都是运动画面,但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

给视频注入「镜头语言」

在视频制作中有个非常重要的概念——镜头语言。通过不同的镜头选择、角度、运动和组合,来表达故事情节、揭示角色心理、营造氛围以及引导观众情感。

现有AI生成的视频,能够明显地感觉到镜头语言的单调,镜头的运动局限于轻微幅度的推、拉、移等简单镜头。深究背后的原因看,因为现有的视频内容生成大多是先通过生成单帧画面,再做连续的前后帧预测,但主流的技术路径,很难做到长时序的连贯预测,只能做到小幅的动态预测。

「Vidu」则突破了这些局限。在一个「海边小屋」为主题的片段中,我们可以看到,「Vidu」一次生成的一段片段中涉及多个镜头,画面既有小屋的近景特写,也有望向海面的远眺,整体看下来有种从屋内到走廊再到栏杆边赏景的叙事感。

包括从短片中的多个片段能看到,「Vidu」能直接生成转场、追焦、长镜头等效果,包括能够生成影视级的镜头画面,给视频注入镜头语言,提升画面的整体叙事感。

保持时间和空间的一致性

视频画面的连贯和流畅性至关重要,这背后其实是人物和场景的时空一致性,比如人物在空间中的运动始终保持一致,场景也不能在没有任何转场的情况下突变。而这一点 AI 很难实现,尤其时长一长,AI生成的视频将出现叙事断裂、视觉不连贯、逻辑错误等问题, 这些问题会严重影响视频的真实感和观赏性。

「Vidu」在一定程度上克服了这些问题。从它生成的一段“带珍珠耳环的猫”的视频中可以看到,随着镜头的移动,作为画面主体的猫在3D空间下一直保持着表情、服饰的一致,视频整体上连贯、流畅,保持了很好的时间、空间一致性。

模拟真实物理世界

Sora令人惊艳的一大特点,就是能够模拟真实物理世界的运动,例如物体的移动和相互作用。其中Sora有发布的一个经典案例,“一辆老式SUV行驶在山坡上”的画面,非常好地模拟了轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化:

在同样的提示词下,「Vidu」与Sora生成效果高度接近,灰尘、光影等细节与人类在真实物理世界中的体验非常接近。

当然在“带有黑色车顶行李架”的局部细节上,「Vidu」没能生成出来,但也瑕不掩瑜,整体效果已高度接近真实世界。

丰富的想象力

与实景拍摄相比,用AI生成视频有一个很大的优势——它可以生成现实世界中不存在的画面。以往,这些画面往往要花费很大的人力、物力去搭建或做成特效,但是AI短时间就可以自动生成了。

比如在下面这个场景中,「帆船」、「海浪」罕见地出现在了画室里,而且海浪与帆船的交互动态非常自然。

包括短片中的“鱼缸女孩”的片段,奇幻但又具有一定的合理感,这种能够虚构真实世界不存在的画面,对于创作超现实主义内容非常有帮助,不仅可以激发创作者的灵感,提供新颖的视觉体验,还能拓宽艺术表达的边界,带来更加丰富和多元化的内容形式。

理解中国元素

除了以上四方面的特点外,我们从「Vidu」放出的短片中还看到了一些不一样的惊喜,「Vidu」能够生成特有中国元素的画面,比如熊猫、龙、宫殿场景等。

两个月快速突破的“秘籍”

此前,唐家渝给出的赶上Sora的时间,是“很难说是三个月还是半年”。

但如今仅仅过去一个多月时间,团队就实现了突破,而且据透露,3月份公司内部就实现了8秒的视频生成,紧接着4月份突破了16秒生成。短短两个月时间,背后是如何做到的?

一是选对了技术路线

「Vidu」底层基于完全自研的U-ViT架构,该架构由团队在2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion和Transformer融合的架构。

Transformer架构被广泛应用于大语言模型,该架构的优势在于scale特性,参数量越大,效果越好,而Diffusion被常用于传统视觉任务(图像和视频生成)中。

融合架构就是在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net卷积网络,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的涌现能力。

不同于市面上之前的一些“类Sora”模型,长视频的实现其实是通过插帧的方式,在视频的每两帧画面中增加一帧或多帧来提升视频的长度。这种方法就需要对视频进行逐帧处理,通过插入额外的帧来改善视频长度和质量。整体画面就会显得僵硬而又缓慢。

另外,还有一些视频工具看似实现了长视频,实际打了“擦边球”。底层集合了许多其他模型工作,比如先基于Stable Diffusion、Midjourney生成单张画面,再图生4s短视频,再做拼接。表面看时长是长了,但本质还是“短视频生成”的内核。

但「Vidu」基于纯自研的融合架构,底层是“一步到位”,不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。直观上,我们可以看到“一镜到底”的丝滑感,视频从头到尾连续生成,没有插帧痕迹。

二是扎实的工程化基础

早在2023年3月,基于U-ViT架构,团队在开源的大规模图文数据集LAION-5B上就训练了10亿参数量的多模态模型——UniDiffuser,并将其开源。

UniDiffuser主要擅长图文任务,能支持图文模态间的任意生成和转换。UniDiffuser的实现有一项重要的价值——首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,同样是图文模型,UniDiffuser比最近才切换到DiT架构的Stable Diffusion 3领先了一年。

这些在图文任务中积累工程经验为视频模型的研发打下了基础。因为视频本质上是图像的流,相当于是图像在时间轴上做了一个扩增。因此,在图文任务上取得的成果往往能够在视频任务中得到复用。Sora就是这么做的:它采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。

据悉,「Vidu」也复用了生数科技在图文任务的很多经验,包括训练加速、并行化训练、低显存训练等等,从而快速跑通了训练流程。据悉,他们通过视频数据压缩技术降低输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升1倍,显存开销降低80%,训练速度累计提升40倍。

从图任务的统一到融合视频能力,「Vidu」可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容,官方也透露,「Vidu」目前并在加速迭代提升,面向未来,「Vidu」灵活的模型架构也将能够兼容更广泛的多模态能力。

One More Thing

最后,再聊下「Vidu」背后的团队——生数科技,这是一支清华背景的精干团队,致力于专注于图像、3D、视频等多模态大模型领域。

生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任;CEO唐家渝本硕就读于清华大学计算机系,是THUNLP组成员;CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT和UniDiffuser两项工作均是由他主导完成的。

团队从事生成式人工智能和贝叶斯机器学习的研究已有20余年,在深度生成模型突破的早期就开展了深入研究。在扩散模型方面,团队于国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

团队于ICML、NeurIPS、ICLR等人工智能顶会发表多模态领域相关论文近30篇,其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果,获得ICLR杰出论文奖,并被OpenAI、苹果、Stability.ai等国外前沿机构采用,应用于DALL·E 2、Stable Diffusion等明星项目中。

自2023年成立以来,团队已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。

扫描二维码推送至手机访问。

版权声明:本文由激石Pepperstone发布,如需转载请注明出处。

本文链接:http://www.paraat.net/news/2988.html

标签: OpenAI
分享给朋友:

“清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律” 的相关文章

“妖镍”终局:青山缩减敞口,合作伙伴摩根大通1.2亿美元认亏出局

激石Pepperstone(http://www.paraat.net/)报道:今年3月,LME镍期货上演的史诗级逼空行情至今仍历历在目:价格在两日暴涨超250%,并一度攀升至创历史纪录的101365美元/吨,一时间全球震动。 其中全球最大镍生产商青山控股获得全场瞩目,与此同时,摩根大通也是这场轧空...

A股三大指数均涨超1% 旅游等消费板块大涨 房地产回调

A股三大指数均涨超1% 旅游等消费板块大涨 房地产回调

激石Pepperstone(http://www.paraat.net/)报道:6月30日,A股三大指数早间冲高后小幅回落,随后再度拉升走强。截至发稿,深成指涨1.5%,沪指涨1.1%,创业板指涨1.5% 个股涨多跌少,两市超3400股飘红。 板块方面,酒店、旅游、民航、饮料制造等大消费板块大涨,...

三大央行行长“盖棺定论”:“低通胀时代”结束了!“低利率”纪元告终

激石Pepperstone(http://www.paraat.net/)报道:6月29日周三,欧美三大央行行长罕见齐聚一堂,传递出一个关键的信息是:世界正转向一种更高的通胀机制,过去二十年的低利率策略将不再适用。 “低通胀时代”结束 目前,美国、英国和欧元区的通胀率远高于目标水平,央行行长们认为,...

美国信心崩塌“接力赛”!美企CFO对经济乐观程度降至近十年最低

激石Pepperstone(http://www.paraat.net/)报道:在美国高企的通胀以及美联储大幅加息阴霾之下,投资者悲观情绪愈发浓重,消费者信心指数节节败退,美国小企业乐观程度指数跌至近两年低点,本周三一项旨在调查企业首席财务官们对今年美国经济表现的一项信心指数也跌至近十年最低水平。...

“末日博士”下一个做空目标:数据中心

激石Pepperstone(http://www.paraat.net/)报道:“末日博士”又发现了新的做空目标——传统数据中心。 吉姆·查诺斯(Jim Chanos)查诺斯是华尔街知名大空头,又被称作“末日博士”,他以二十年前准确预测美国能源巨头安然公司(Enron)的倒闭而闻名。 最近,查诺斯准...

A股冲高回落!锂电股上冲 电力、稀土震荡走强 食品饮料、猪肉股疲软

A股冲高回落!锂电股上冲 电力、稀土震荡走强 食品饮料、猪肉股疲软

激石Pepperstone(http://www.paraat.net/)报道:7月5日周二,三大指数高开后冲高回落。其中创业板指一度涨逾1%,随后下行翻绿。 截至发稿,沪指涨0.10%,深成指跌0.45%,创业板指跌0.55%。 盘面上,锂电板块活跃,电力、稀土震荡走强,煤炭板块走高,旅游酒店、...