突破！中国首个Sora级视频大模型发布

摘要：突破！中国首个Sora级视频大模型发布，下面是趣探网小编收集整理的内容，希望对大家有帮助！

只需要一段文字指令就能生成一段60秒精致细腻的视频——今年2月起，文生视频大模型Sora曾在全球人工智能业内外引发震动。4月27日上午，在2024中关村论坛年会未来人工智能先锋论坛上，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点，这也是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

据了89992463解，该模型采用团队原创的93238542Diffusion与55805820Transformer融合的80680876架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的73228910高清视频内容。

根据现场演示的59151981效果，Vidu能够模拟真实的14047131物理世界，能够生成细节复杂、并且53946204符合真实物理规律的36863771场景，例如71732831合理的20661011光影效果、细腻的42288768人物表情等。它还具有29801094丰富的88955220想象力，能够生成真实世界不存在83177570的26854132虚构画面，创造出具有97680121深度和46412244复杂性的6983150超现实主义内容，例如57783446“画室里的95341367一艘船正在55403260海浪中驶向17475484镜头”这样的58519893场景。【趣探网】#气血不足#

此外，Vidu能够生成复杂的82629302动态镜头，不再局限于2387974简单的52718993推、拉、移等40242527固定镜头，而是9068633能够围绕统一主体在52439233一段画面里就实现远景、近景、中景、特写等41915328不同镜头的65754293切换，包括能直接生成长镜头、追焦、转场等73826284效果，给视频注入镜头语言。

作为中国自研视频大模型，Vidu还能理解中国元素，能够在视频中生成例如熊猫、龙等特有的中国元素。

值得一提的9146247是54101976，短片中的片段都是49763788从头到尾连续生成，没有明显的67506347插帧现象，从这种“一镜到底”的表现能够推测出，Vidu采用的7880351是13173580“一步到位”的98199684生成方式，与12431082 Sora一样，从文本到视频的3580185转换是直接且90543987连续的87945245，在2146007底层算法实现上是4725277基于73287898单一模型完全端到端生成，不涉及中间的插帧和80395259其他1740339多步骤的19180318处理。

据了77780449解，Vidu的31636783快速突破源自于50474753团队在贝叶斯机器学习和29916261多模态大模型的362833长期积累和97889972多项原创性成果。其核心技术 U-ViT 架构由团队于868102292022年9月提出，早于60852750Sora采用的70783612DiT架构，是40656650全球首个Diffusion与80871358Transformer融合的63231151架构，完全由团队自主研发。

“在48521933Sora发布后，我26638605们发现刚好和40860568我87495237们的24035476技术路线是95070604高度一致的5151951，这也9113953让我90665557们坚定地52066309进一步推进了90217193自己的79088896研究。”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后，团队基于52560584对U-ViT 架构的深入理解以及长期积累的61266470工程与54663651数据经验，在86590610短短两个月进一步突破长视频表示与35849444处理关键技术，研发推出Vidu视频大模型，显著提升视频的21680128连贯性与动态性。来源：北京日报客户端