AI生成视频的竞赛愈演愈烈,最新选手Pyramid Flow闪亮登场,这款全新的开源模型每秒钟可生成10秒长的高质量视频片段。它由北京大学、北京邮电大学与快手合作研发。快手之前发布的Kling视频生成AI模型,让它已经在业内颇有名气。而Pyramid Flow采用了一种创新的“金字塔流动匹配”技术,逐步生成低分辨率视频,最后才输出全分辨率版本,极大提高了生成效率。更更重要的是,这款模型完全开源,可以在Hugging Face (https://huggingface.co/rain1011/pyramid-flow-sd3)和GitHub (https://github.com/jy0205/Pyramid-Flow)下载,甚至商用也不受限!不过,目前它的推理推理环境需要用户自行搭建,虽然免费,但对计算资源的需求较高。
1
视频生成速度媲美业内大咖 在实际应用中,Pyramid Flow的表现如何呢?它可以在56秒内生成一段5秒钟的384p视频,这速度已经与一些顶级扩散模型不相上下,甚至略快。不过,目前在速度上依旧不及Runway的Gen 3-Alpha Turbo,后者通常只需10-20秒即可生成类似的视频。
虽然还没有亲自体验这款模型,但开发团队发布的样本视频已经展示出令人惊艳的效果,几乎可以媲美目前市面上最为昂贵的商业AI视频生成工具。
2
挑战付费商业化产品 Pyramid Flow的设计理念十分明确——让更多开发者和内容创作者可以以零成本享受到顶尖AI视频生成技术,而不需要为Runway、Luma等付费产品支付高昂的订阅费。事实上,许多大公司如狮门影业已经开始与这些付费平台合作,定制他们的AI生成工具。未来,Pyramid Flow很可能成为这些影视巨头眼中的潜力选项,但目前对开发能力和计算资源的需求仍是个门槛。
3
“金字塔流动匹配”:效率与质量的平衡 传统视频生成模型往往会在不同阶段使用不同模型,导致训练复杂且耗时。而Pyramid Flow凭借“金字塔流动匹配”技术,通过逐层生成低分辨率版本,最后才在顶层生成全分辨率视频,极大简化了计算流程。据开发团队的研究,Pyramid Flow在训练过程中能够将token数量减少到传统扩散模型的四分之一,从而提升了训练效率。
这款模型的最大亮点在于,它不仅速度快,还能生成分辨率高达768p、24帧每秒的视频。
不过,Pyramid Flow的开源属性也让它暴露在了一些潜在争议中。它所使用的公共数据集,包括LAION-5B等,近年因涉嫌未经授权使用版权内容而饱受争议。开源的好处与挑战往往并存。
4
开源与商业的较量 AI视频生成的战场才刚刚拉开帷幕,Pyramid Flow的推出为这个领域注入了新的活力。它凭借开源、高效、免费商用等特点,已经吸引了大量开发者的目光。随着时间推移,更多的改进与优化可能会让它成为视频创作者的必备工具。但就目前来看,它仍需在细节调校、生态系统的成熟度上追赶如Runway等商用模型。未来,开发者们是否会选择这一开源方案,还是继续依赖商业化产品,将成为AI视频生成领域的一大看点。
暂无评论内容