Vidu是由北京生数科技有限公司联合清华大学共同发布的中国首个长时长、高一致性、高动态性的视频大模型。
该模型于2024年4月27日在中关村论坛未来人工智能先锋论坛上正式发布,并于2024年7月30日上线。Vidu采用了团队原创的Diffusion与Transformer融合的架构U-ViT,这一核心技术由团队于2022年9月提出,是全球首个将这两种技术融合的架构,具有显著的技术创新性和知识产权优势。
高清视频生成:
Vidu能够一键生成长达16秒、分辨率高达1080P的高清视频内容。这种一键生成的方式,使得从文本到视频的转换过程直接且连续,不涉及中间的多步骤处理,如插帧等。
多镜头生成与时空一致性:
Vidu在生成视频时,能够围绕统一主体实现远景、中景、近景、特写等多种镜头的切换,包括生成长镜头、追焦、转场等效果,给视频注入丰富的镜头语言,显著提升画面的叙事感与质感。
同时,Vidu在保持时空一致性方面表现出色,能够在不同镜头之间保持画面主体的一致性,如服饰、表情、模态等,使得视频整体看上去非常连贯、统一和流畅。
模拟真实物理世界:
Vidu能够模拟真实物理世界的运动规律,如光影效果、物体的物理行为等,使得生成的视频内容更加逼真。例如,在模拟“一辆老式SUV行驶在山坡上”的场景中,Vidu能够准确地呈现灰尘、光影、背景等细节,与真实世界中人类的感知非常相近。
丰富的想象力:
除了模拟现实外,Vidu还能够基于文本描述或指令,创造出具有想象力的场景和故事。例如,“画室里的一艘船正在海浪中驶向镜头”这样的超现实主义画面,Vidu也能够合理地生成并呈现。
理解中国元素:
作为中国自研的视频大模型,Vidu能够生成特有中国元素的画面,如熊猫、龙、宫殿场景等,这体现了其在文化理解和表达方面的独特优势。
高动态性与高一致性:
Vidu在视频生成过程中,不仅注重画面的高清和逼真,还强调动态性和一致性。这使得生成的视频内容更加生动、连贯,能够满足多种应用场景的需求。
高效的推理速度:
据现场演示效果显示,Vidu的实测推理速度为生成一段4秒片段需要30秒。这表明Vidu在保持高质量视频生成的同时,也具备较快的处理速度。
综上所述,Vidu作为一款集高清视频生成、多镜头生成、时空一致性保持、真实物理世界模拟、丰富想象力、中国元素理解以及高效推理速度于一体的视频大模型,具有广泛的应用前景和巨大的市场潜力。