全面对标Sora
3月中旬,生数科技联合创始人兼CEO唐家渝就曾公开表示:“今年内一定能达到Sora目前版本的效果。” 现在,在生成时长、时空一致性、镜头语言、物理模拟等方面,确实能看到「Vidu」在短时间内已经逼近Sora水平。
长度突破10秒大关
「Vidu」生成的视频不再是持续几秒的「GIF」,而是达到了16秒,并且做到了画面连续流畅,且有细节、逻辑连贯。 尽管都是运动画面,但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。
视频来自生数科技联合清华大学最新发布的视频大模型「Vidu」。 从官宣消息看,「Vidu」支持一键生成长达16秒、分辨率达1080p的高清视频内容。 更令人惊喜的是,「Vidu」画面效果非常接近Sora,在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都十分出色,而且还能虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。 并且实现这般效果,背后团队只用了两个月的时间。
Sora席卷世界,也掀起了全球竞逐AI视频生成的热潮。 就在今天,国内又有一支短片引发关注。 「Vidu」画面效果非常接近Sora,在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都十分出色,而且还能虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。 并且实现这般效果,背后团队只用了两个月的时间。
突破创新!揭秘两个月破局之道
在视频生成领域,「Vidu」以其创新的技术和快速的突破引起了人们的关注。原本被认为需要数月甚至半年才能追赶上Sora的技术水平,但仅仅过去一个多月,「Vidu」团队就实现了重大突破。他们在三月份就实现了8秒的视频生成,随后在四月份更是突破了16秒的生成速度。这样的成就背后,究竟是怎样的秘密呢?
首先,「Vidu」选择了一条正确的技术路线。他们的底层架构基于全新的U-ViT结构,早在2022年九月团队就提出了这一架构,早于Sora采用的DiT架构。这个架构是全球首个将Diffusion和Transformer融合的模型,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行了融合。相较于之前一些模型通过插帧方式实现长视频,「Vidu」的架构实现了更为连续和流畅的视频生成,避免了插帧带来的僵硬和缓慢。
其次,「Vidu」有着扎实的工程化基础。早在2023年三月,他们就在大规模图文数据集LAION-5B上训练了10亿参数的多模态模型UniDiffuser,并将其开源。UniDiffuser在图文任务上表现出色,而这些经验也为视频模型的研发奠定了基础。通过图文任务上的工作,「Vidu」团队积累了大量工程经验,这些经验能够被成功应用到视频任务中。他们的工作不仅体现在模型架构上,还包括训练加速、并行化训练等方面,大大提升了训练效率。
最后,值得一提的是「Vidu」背后的团队生数科技。这支团队来自清华大学人工智能研究院,拥有着丰富的研究经验和技术实力。他们在多模态大模型领域已有20余年的研究历史,在扩散模型方面更是国内的领先者。团队成员的背景和专业能力为「Vidu」的成功提供了坚实的支撑。
「Vidu」的突破不仅代表了技术上的进步,也展现了团队实力和工程化能力。未来,「Vidu」将继续加速迭代,为用户提供更加多样化、更长时长的视频内容。