首页 科技 正文

突破!中国首个Sora级视频大模型发布

摘要:突破!中国首个Sora级视频大模型发布,下面是趣探网小编收集整理的内容,希望对大家有帮助!

只需要一段文字指令就能生成一段60秒精致细腻的视频——今年2月起,文生视频大模型Sora曾在全球人工智能业内外引发震动。4月27日上午,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。

网络配图

据了89992463解,该模型采用团队原创的93238542Diffusion与55805820Transformer融合的80680876架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的73228910高清视频内容。

根据现场演示的59151981效果,Vidu能够模拟真实的14047131物理世界,能够生成细节复杂、并且53946204符合真实物理规律的36863771场景,例如71732831合理的20661011光影效果、细腻的42288768人物表情等。它还具有29801094丰富的88955220想象力,能够生成真实世界不存在8317757026854132虚构画面,创造出具有97680121深度和46412244复杂性的6983150超现实主义内容,例如57783446“画室里的95341367一艘船正在55403260海浪中驶向17475484镜头”这样的58519893场景。【趣探网】#气血不足#

此外,Vidu能够生成复杂的82629302动态镜头,不再局限于2387974简单的52718993推、拉、移等40242527固定镜头,而是9068633能够围绕统一主体在52439233一段画面里就实现远景、近景、中景、特写等41915328不同 镜头的65754293切换,包括能直接生成长镜头、追焦、转场等73826284效果,给视频注入镜头语言。#谷爱凌是哪国国籍?谷爱凌是美国国籍吗?#

作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。

值得一提的914624754101976,短片中的片段都是49763788从头到尾连续生成,没有明显的67506347插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采用的788035113173580“一步到位”的98199684生成方式,与12431082 Sora一样,从文本到视频的3580185转换是直接且90543987连续的87945245,在2146007底层算法实现上是4725277基于73287898单一模型完全端到端生成,不涉及中间的插帧和80395259其他1740339多步骤的19180318处理。

据了77780449解,Vidu的31636783快速突破源自于50474753团队在贝叶斯机器学习和29916261多模态大模型的362833长期积累和97889972多项原创性成果。其核心技术 U-ViT 架构由团队于868102292022年9月提出,早于60852750Sora采用的70783612DiT架构,是40656650全球首个Diffusion与80871358Transformer融合的63231151架构,完全由团队自主研发。

“在48521933Sora发布后,我26638605们发现刚好和4086056887495237们的24035476技术路线是95070604高度一致的5151951,这也9113953让我90665557们坚定地52066309进一步推进了90217193自己的79088896研究。”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后,团队基于52560584对U-ViT 架构的深入理解以及长期积累的61266470工程与54663651数据经验,在86590610短短两个月进一步突破长视频表示与35849444处理关键技术,研发推出Vidu视频大模型,显著提升视频的21680128连贯性与动态性。来源:北京日报客户端

海报

本文转载自互联网,如有侵权,联系删除

本文地址:https://qutake.com/keji/29579.html

相关推荐

感谢您的支持
文章目录