全面对标Sora

3月中旬，生数科技联合创始人兼CEO唐家渝就曾公开表示：“今年内一定能达到Sora目前版本的效果。” 现在，在生成时长、时空一致性、镜头语言、物理模拟等方面，确实能看到「Vidu」在短时间内已经逼近Sora水平。

长度突破10秒大关

「Vidu」生成的视频不再是持续几秒的「GIF」，而是达到了16秒，并且做到了画面连续流畅，且有细节、逻辑连贯。尽管都是运动画面，但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

视频来自生数科技联合清华大学最新发布的视频大模型「Vidu」。从官宣消息看，「Vidu」支持一键生成长达16秒、分辨率达1080p的高清视频内容。更令人惊喜的是，「Vidu」画面效果非常接近Sora，在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都十分出色，而且还能虚构出真实世界不存在的超现实主义画面，这是当前的视频生成模型难以实现的。并且实现这般效果，背后团队只用了两个月的时间。

Sora席卷世界，也掀起了全球竞逐AI视频生成的热潮。就在今天，国内又有一支短片引发关注。「Vidu」画面效果非常接近Sora，在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都十分出色，而且还能虚构出真实世界不存在的超现实主义画面，这是当前的视频生成模型难以实现的。并且实现这般效果，背后团队只用了两个月的时间。

突破创新！揭秘两个月破局之道

在视频生成领域，「Vidu」以其创新的技术和快速的突破引起了人们的关注。原本被认为需要数月甚至半年才能追赶上Sora的技术水平，但仅仅过去一个多月，「Vidu」团队就实现了重大突破。他们在三月份就实现了8秒的视频生成，随后在四月份更是突破了16秒的生成速度。这样的成就背后，究竟是怎样的秘密呢？

首先，「Vidu」选择了一条正确的技术路线。他们的底层架构基于全新的U-ViT结构，早在2022年九月团队就提出了这一架构，早于Sora采用的DiT架构。这个架构是全球首个将Diffusion和Transformer融合的模型，将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行了融合。相较于之前一些模型通过插帧方式实现长视频，「Vidu」的架构实现了更为连续和流畅的视频生成，避免了插帧带来的僵硬和缓慢。

其次，「Vidu」有着扎实的工程化基础。早在2023年三月，他们就在大规模图文数据集LAION-5B上训练了10亿参数的多模态模型UniDiffuser，并将其开源。UniDiffuser在图文任务上表现出色，而这些经验也为视频模型的研发奠定了基础。通过图文任务上的工作，「Vidu」团队积累了大量工程经验，这些经验能够被成功应用到视频任务中。他们的工作不仅体现在模型架构上，还包括训练加速、并行化训练等方面，大大提升了训练效率。

最后，值得一提的是「Vidu」背后的团队生数科技。这支团队来自清华大学人工智能研究院，拥有着丰富的研究经验和技术实力。他们在多模态大模型领域已有20余年的研究历史，在扩散模型方面更是国内的领先者。团队成员的背景和专业能力为「Vidu」的成功提供了坚实的支撑。

「Vidu」的突破不仅代表了技术上的进步，也展现了团队实力和工程化能力。未来，「Vidu」将继续加速迭代，为用户提供更加多样化、更长时长的视频内容。

视频革命！探秘最近最火的视频生成神器Vidu

分享文章

其他文章

最近越南盾为何暴跌？

前索罗斯副手，亿万富翁减仓七成英伟达

重塑楼市！国资是如何激活存量房

芝商所计划进军比特币现货，Coinbase股价暴跌9.4%！

字节跳动的“大模型革命”，价格屠夫重塑AI市场

美股创历史新高！美国CPI点燃美联储降息预期

关于Finhalo

联系我们

Follow on: