事先没有一点声张，今天上午，中国首个长时长、高一致性、高动态性视频大模型Vidu就在中关村论坛未来人工智能先锋论坛上发布了。

当清华大学人工智能研究院副院长、生数科技首席科学家朱军放完Vidu的演示视频，现场响起了5秒以上的掌声。

“已经很接近Sora了！”“生成质量很好。”在场多位观众感叹。

从2月份Sora席卷全球，再到近期Adobe旗下的视频剪辑软件Premiere Pro引入Sora、Runway、Pika等AI视频工具，海外的视频赛道正热火朝天。相比之下，国内似乎一直在等待好消息的过程中。

过去的两个月，虽然行业内陆续有一些宣称追赶Sora、复现Sora的声音，但进展似乎并不明显。直到今天一支短片的发布，Vidu给在场观众翻译了一下——“什么叫惊喜”。

甲子光年

1.Vidu带来的惊喜

Vidu是生数科技联合清华大学最新发布的视频大模型，该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除了在时长方面的突破外，Vidu在视频效果方面实现显著提升。

朱军在现场表示，Vidu实现了“全栈自主创新”“多维全面突破”，一共有6大特点：模拟真实物理世界、富有想象力、具有多镜头语言、出色的视频时长、时空一致性高、理解中国元素。

在现场的演示中，Vidu几乎都在直接对标Sora，有的还是用同样的提示词生成的内容，可以说是“正面硬刚”。从质感上看，Vidu生成的视频也没有其它一些AI视频的“油感”。

在模拟真实物理世界方面：Vidu能够生成细节复杂的场景，且符合真实的物理规律，例如合理的光影效果、细腻的人物表情等。

Sora发布之后，OpenAI在技术报告中透露，Sora能够深刻地理解运动中的物理世界，堪称为真正的“世界模拟器”。Sora当时发布了一个经典案例——“一辆老式SUV行驶在山坡上”的画面，非常好地模拟了轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化。在同样的提示词下，Vidu与Sora生成效果高度接近，灰尘、光影等细节与人类在真实物理世界中的体验非常接近。

在想象力方面：Vidu能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。

在多镜头语言方面：Vidu能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

在视频时长方面：Vidu生成的视频不再是持续几秒的GIF，而是达到了十几秒，最长可以达到16秒左右，而且做到了画面连续流畅，且有细节、逻辑连贯。尽管都是运动画面，但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

在时空一致性方面：Vidu在16秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致。

在理解中国元素方面：Vidu生成特有的中国元素，例如熊猫、龙等。

此外，Vidu还晒出了和其他文生视频模型的生成效果对比。比如，同样是“镜头围绕一大堆老式电视旋转”的提示词，Vidu相比Sora真正做到了“转镜头”的效果。

生数科技介绍，短片中的片段都是从头到尾连续生成，没有明显的插帧现象。
所谓插帧主要是通过在视频的每两帧画面中增加一帧或多帧来提升视频的长度或流畅度。这种方法需要对视频进行逐帧处理，通过插入额外的帧来改善视频长度和质量，是一个分步骤的过程。市面上之前的一些“类Sora”模型就是采用的这种方式，整体画面就会显得僵硬而又缓慢。
另外，还有一些视频工具看似实现了长视频，实际打了“擦边球”。底层集合了许多其他模型工作，比如先基于Stable Diffusion、Midjourney生成单张画面，再图生4s短视频，再做拼接。表面看时长是长了，但本质还是“短视频生成”的内核。
但Vidu与Sora则是通过单一步骤直接生成高质量的视频，无需经过多个步骤的关键帧生成和插帧处理。
从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

2.两个月进展神速，没问题吗？

今年3月中旬，生数科技联合创始人兼CEO唐家渝在公司组织的媒体沟通会上表示：“今年内一定能达到Sora目前版本的效果，但很难说是三个月还是半年。”
这才过去一个多月时间，团队就实现了突破，「甲子光年」从生数科技内部了解到，3月份公司内部就实现了8秒的视频生成，紧接着4月份突破了16秒的视频生成。
朱军在现场主动提到了Vidu取得快速突破的原因：“这是团队多年的积累。”
Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

2023年3月，朱军团队开源全球首个基于U-ViT架构的多模态扩散大模UniDiffuser，在全球范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。
UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型，支持图文模态间的任意生成和转换。在架构上，UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。

自今年2月OpenAI发布Sora后，朱军团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。

「甲子光年」了解到，Vidu也复用了生数科技在图文任务的很多经验，包括训练加速、并行化训练、低显存训练等等，从而快速跑通了训练流程。团队通过视频数据压缩技术降低输入数据的序列维度，同时采用自研的分布式训练框架，在保证计算精度的同时，通信效率提升1倍，显存开销降低80%，训练速度累计提升40倍。
从图任务的统一到融合视频能力，Vidu可被视为一款通用视觉模型，能够支持生成更加多样化、更长时长的视频内容，生数科技也透露，Vidu目前并在加速迭代提升，面向未来，Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。

3.来自清华的团队

Vidu背后的团队——生数科技，是一支清华背景的精干团队，致力于专注于图像、3D、视频等多模态大模型领域。
生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任；CEO唐家渝本硕就读于清华大学计算机系，是THUNLP组成员；CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员，长期关注扩散模型领域研究，U-ViT和UniDiffuser两项工作均是由他主导完成的。
在2024年AAAI Fellow名单中，朱军是唯一一位入选的中国高校学者，入选理由是“对机器学习理论和实践的重大贡献”。AAAI是国际人工智能领域的权威学术组织，Fellow 是该组织给予会员的最高荣誉，被誉为“国际人工智能领域名人堂”。
朱军的研究工作围绕机器学习基础理论、高效算法和应用展开，注重理论与实际问题结合。他师从中国人工智能奠基人、清华大学教授张钹。
博士毕业后，朱军远赴美国，在卡内基梅隆大学进行访学和博士后研究。卡内基梅隆大学曾希望朱军留下任教，在朱军犹豫不定时，一次同学间讨论时有同学提到“中国人工智能研究落后”，让他坚定了回国的决心。
他最终选择回到母校清华大学任教，与恩师张钹再次合作。在回国后不久，朱军就展现了自己在人工智能学术研究工作以及人才培养方面的优秀才能，在他看来，教育改变未来，他曾经受益过，之后也要回馈和传递这份善意。

甲子光年

生数科技团队从事生成式人工智能和贝叶斯机器学习的研究已有20余年，在深度生成模型突破的早期就开展了深入研究。在扩散模型方面，团队于国内率先开启了该方向的研究，成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
团队于ICML、NeurIPS、ICLR等人工智能顶会发表多模态领域相关论文近30篇，其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果，获得ICLR杰出论文奖，并被OpenAI、苹果、Stability.ai等国外前沿机构采用，应用于DALL·E 2、Stable Diffusion等明星项目中。
自2023年成立以来，团队已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可，完成数亿元融资。据了解，生数科技是目前国内在多模态大模型赛道估值最高的创业团队。
生数科技表示，大模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。因此在发布之际，生数科技正式推出“Vidu大模型合作伙伴计划”，诚邀产业链上下游企业、研究机构加入，共同构建合作生态。
在今天的演讲最后，朱军特意提到了Vidu这个名字的意义：“Vidu意味着We do、We did、We do together。”
此前，「甲子光年」就基于公开资料与现有信息，整理了国内12家创业公司与4家大厂的AI视频团队信息，不少团队都有着极强的潜力。
在追赶国际领先多模态大模型之路上，生数科技并不孤单。

THE END

未分类

清华团队发布视频大模型Vidu：性能接近Sora，引领AI视频生成新趋势

1.Vidu带来的惊喜

2.两个月进展神速，没问题吗？

3.来自清华的团队