摘要:突破!中国首个Sora级视频大模型发布,下面是趣探网小编收集整理的内容,希望对大家有帮助!
只需要一段文字指令就能生成一段60秒精致细腻的视频——今年2月起,文生视频大模型Sora曾在全球人工智能业内外引发震动。4月27日上午,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。
据了
解,该模型采用团队原创的 Diffusion与 Transformer融合的 架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的 高清视频内容。根据现场演示的【趣探网】
效果,Vidu能够模拟真实的 物理世界,能够生成细节复杂、并且 符合真实物理规律的 场景,例如 合理的 光影效果、细腻的 人物表情等。它还具有 丰富的 想象力,能够生成真实世界不存在 的 虚构画面,创造出具有 深度和 复杂性的 超现实主义内容,例如 “画室里的 一艘船正在 海浪中驶向 镜头”这样的 场景。此外,Vidu能够生成复杂的
动态镜头,不再局限于 简单的 推、拉、移等 固定镜头,而是 能够围绕统一主体在 一段画面里就实现远景、近景、中景、特写等 不同 镜头的 切换,包括能直接生成长镜头、追焦、转场等 效果,给视频注入镜头语言。作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。
值得一提的
是 ,短片中的片段都是 从头到尾连续生成,没有明显的 插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采用的 是 “一步到位”的 生成方式,与 Sora一样,从文本到视频的 转换是直接且 连续的 ,在 底层算法实现上是 基于 单一模型完全端到端生成,不涉及中间的插帧和 其他 多步骤的 处理。据了
解,Vidu的 快速突破源自于 团队在贝叶斯机器学习和 多模态大模型的 长期积累和 多项原创性成果。其核心技术 U-ViT 架构由团队于 2022年9月提出,早于 Sora采用的 DiT架构,是 全球首个Diffusion与 Transformer融合的 架构,完全由团队自主研发。“在
Sora发布后,我 们发现刚好和 我 们的 技术路线是 高度一致的 ,这也 让我 们坚定地 进一步推进了 自己的 研究。”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后,团队基于 对U-ViT 架构的深入理解以及长期积累的 工程与 数据经验,在 短短两个月进一步突破长视频表示与 处理关键技术,研发推出Vidu视频大模型,显著提升视频的 连贯性与动态性。来源:北京日报客户端